Repositório dedicado à disciplina de Práticas Computacionais Avançadas, com foco em processamento de linguagem natural (NLP).
O objetivo dessa disciplina é ampliar as habilidades e conhecimento do grupo na área de NLP a partir do desenvolvimento de um projeto. O presente trabalho, portanto, propõe realizar uma análise estatística dos compostos químicos mais utilizados na síntese de perovskitas, para isso utilizando dados obtidos a partir de técnicas de processamento de linguagem natural estudadas em aula aplicadas a um banco de dados composto pelos abstracts de artigos publicados no ano de 2023.
Adicionalmente, o repositório em questão visa aplicar as estratégias utilizadas fazendo uso de ambas as bibliotecas spaCy
e NLTK
, em Python
, por questões didáticas, para possíveis comparações de sintaxe e métodos entre as duas.
As seguintes ferramentas foram utilizadas para o projeto:
assim como as seguintes bibliotecas/módulos:
-
Pré-processamento e análise com o spaCy: Utiliza a biblioteca
spaCy
para realizar o pré-processamento e análise dos dados. -
Pré-processamento e análise com o NLTK: Utiliza a biblioteca
NLTK
para realizar o pré-processamento e análise dos dados. -
Usando regex e spaCy para identificar as perovskitas: Identifica as fórmulas a partir de regex e apresenta os resultados.