/pipeline-categorizacao-pln

O presente projeto integrador extensionista (PIE) fornecerá ferramentas de apoio às atividades do projeto da Embrapa nomeado de: “Infopasto: gestão da informação e do conhecimento como suporte à gestão estratégica do portfólio de pastagens da Embrapa."

Primary LanguagePython

Pipeline para identificação de erros lexicais e geração de sugestões de correção

Tendo como foco a operacionalização do processamento de textos de um domínio específico, contendo possíveis termos especializados e erros de digitação/grafia produzidos por agentes humanos ou conversão automática de formato (por exemplo, de PDF para TXT), este artigo apresentou um pipeline de preparação/correção de textos. Esse pipeline tem a grande vantagem de evidenciar os erros dos textos, separando o que é de fato erro e o que não é, além de oferecer sugestões para a correção humana.

Pré-requisitos

Antes de executar o projeto, certifique-se de ter os seguintes requisitos atendidos:

  • Python 3 instalado

O código usa algumas ferramentas auxiliares

Vale ressaltar que o arquivo word_frequency_linguateca.txt poossui o mesmo conteúdo que formas.totalbr.txt (que é o dicionário extraído da Linguateca), porém em outro formato (sem as frequências numéricas) para correta utilização por parte de uma das funções do pipeline.

Instalação

  1. Clone este repositório para o seu ambiente local:
git clone https://github.com/LALIC-UFSCar/pie-embrapa-pln.git
  1. Crie um ambiente virtual (opcional)
python3 -m venv pipeline
source pipeline/bin/activate
  1. Instale as dependências do projeto:
pip install -r requirements.txt

Uso

Para utilizar a ferramenta do pipeline é preciso somente rodar o seguinte comando indicando a pasta com os textos a serem analisados:

  1. Certifique-se de ter uma pasta com os textos que deseja-se analisar.
  2. Execute o seguinte comando:
python3 pipeline_categorizacao.py <pasta-de-arquivos-txt-corpus>

Opcionalmente, podem ser passados mais dois parâmetros:

python3 pipeline_categorizacao.py <pasta-de-arquivos-txt-corpus> <arquivo-unico-opcional> <anotado>

onde <arquivo-unico-opcional> indica o nome de um único arquivo de texto txt (caso deseje-se rodar o pipeline em apenas 1 texto) e <anotado> é qualquer string, indicando se o córpus possui anotação ou não. Caso o córpus seja anotado, palavras anotadas entre < e > serão desconsideradas.

Prevenção de Erros

É possível que quando o pipeline for iniciado tenham problemas de conexão SSL, para obtenção de dados pela API. Nesse caso, o indicado é seguir os seguintes passos:

  1. Crie um arquivo openssl.cnf com o seguinte conteúdo:
openssl_conf = openssl_init

[openssl_init]
ssl_conf = ssl_sect

[ssl_sect]
system_default = system_default_sect

[system_default_sect]
Options = UnsafeLegacyRenegotiation
  1. Exportar o arquivo de configuração no seu ambiente com o comando:
export OPENSSL_CONF=/path/to/file/openssl.cnf