Trabalho 1 de Busca e Recuperação de Informações - Implementação de um sistema de recuperação em memória segundo o modelo vetorial.
Armazenado em repositório github (https://github.com/EBarbara/BRI---work-1)
Instruções:
- Instalar as bibliotecas LXML e NLTK
- Executar o arquivo App.py
- Ver os resultados
Organização das pastas
- Código fonte e arquivos de descrição (readme e modelo) na raiz
- config: Arquivos .cfg para configurar os módulos
- csv: Arquivos .csv como resultados dos processamentos
- Arquivo resultados.csv também é salvo nessa pasta
- logs: Arquivos .log com os logs de execução dos módulos
- xml: Arquivos .xml (e .dtd) com os dados de entrada do exercício
Bibliotecas externas usadas:
- LXML (http://lxml.de/index.html), especificamente a api etree para parsing de arquivos xml verificados por dtd
- NLTK (http://www.nltk.org/), especificamente a função word_tokenize para transformar um texto numa lista de palavras