Este projeto de estudo que foca nas bibliotecas NLTK e spaCy utilizando o corpus das obras de Machado de Assis.
-
Pré-processamento do Texto:
- Limpeza do corpus com NLTK, incluindo:
- Seleção apenas de caracteres não alfanuméricos e padronização para letras minúsculas.
- Remoção de stopwords.
- Junção dos tokens novamente em formato de texto.
- Tokenização.
- Contagem de frequência.
- Plotagem do gráfico de frequência.
- Limpeza do corpus com NLTK, incluindo:
-
Concordânciador Simples:
- Divisão com método split, gerando um array de strings.
- Utilização da função concordance().
-
Similaridade:
- Identificação de palavras que tendem a ocorrer no mesmo contexto.
-
Bigramas:
- Análise da ocorrência de palavras ao longo de todo o texto, incluindo a posição na lista em que a palavra aparece.
-
Comparação com Outra Obra do Mesmo Autor:
- Utilização de POS-tagging para a etiquetagem morfossintática de cada palavra do corpus.
- Análise comparativa entre duas obras.
-
Gráficos:
- Utilização da biblioteca matplotlib.pyplot para estatística descritiva.
- Criação de gráficos de barras simples.
- Criação de dicionário de ocorrência.
- Identificação de entidades nomeadas (NER) com spaCy.