Repositório da disciplina de Sistemas de Recuperação de Informações do curso de Mestrado em Matemática Aplicada da EMAP-FGV.
- Professor: Flávio Codeço Coelho
Para essa disciplina, escolhi utilizar um corpus que contém reviews de produtos eletrônicos do site Amazon.com. Esse corpus, e outros semelhantes, podem ser encontrados nesse link.
O dataset utilizado contém, no total, 1.689.188 observações e o arquivo de texto em .csv
ocupa 1.27 GB em disco. Por essa razão, uma amostra de exemplo foi adicionada à esse repositório (contendo aprox. 10 mil reviews). Para mais detalhes sobre como essa amostra de exemplo foi construída, vide a pasta preparing_corpus
.
O conjunto de dados têm a seguinte estrutura:
A principal coluna de interesse é reviewText
, que contém textos escritos por usuários do site a respeito de um determinado produto eletrônico. É sobre os textos presente nessa coluna que vamos aplicar técnicas de Information Recovery.
Para executar os notebooks presentes nas pastas hw*
(criados em resposta aos homeworks dessa disciplina), são necessárias as seguintes bibliotecas em Python 3:
nltk - collections - os - string - pandas - whoosh - gensim - enchant
A maioria delas pode ser instalada com o comando:
pip install nome_da_biblioteca
Ou, se estiver usando uma distribuição Anaconda,
conda install nome_da_biblioteca
Para isso, basta importar o dataset de exemplo no começo dos notebooks com o comando:
import pandas as pd
corpus = pd.read_csv('../sample_data.csv', sep=',', encoding='utf-8', index_col=0)
A partir daí, o restante do código deve ser executado sem grandes problemas.