/Similaridade-de-Colunas

Esse código tem como objetivo buscar a similaridade entre 2 colunas de um data frame consulta e preencher os valores em um data frame que contenha dados faltantes

Primary LanguageJupyter Notebook

Código da publicação:

Contexto do Código

  • Esse código foi utilizado para buscar similaridadee em colunas com objetivo de padronizar uma base de dados.

Melhorias

  • Aplicar .apply e trabalhar com matriz de vetores a fim de aumentar escalabilidade.
  • Aumentar o número de colunas similares, a do algoritmo funciona como uma árvore de decisão

Contato

bernardo.alemar@hotmail.com

Executar o Script em sua máquina local

Pré-requisitos:

Antes de começar, certifique-se de ter o seguinte instalado em sua máquina:

  • Python 3.10.12
  • pip (gerenciador de pacotes Python)
  • Git (ferramenta de controle de versão)

Uma vez que você tenha isso instalado, abra um terminal em sua máquina local e execute os seguintes comandos:

  1. Clone o repositório:

    git clone https://github.com/bAlemar/Similaridade-de-Colunas.git
    
  2. Navegue até o diretório do repositório clonado:

    cd Similaridade-de-Colunas
    
  3. Crie um ambiente virtual:

     python -m venv ambiente_virtual
    
  4. Ative o ambiente virtual:

    4.1 Linux

     source ambiente_virtual/bin/activate

    4.2 Windows

     ambiente_virtual\Scripts\activate
    
  5. Instale as Dependências:

  • Instale de acordo com Dashboard que deseja utilizar.
     pip install -r requeriments.txt