/BRI---work-1

Trabalho 1 de Busca e Recuperação de Informações - Implementação de um sistema de recuperação em memória segundo o modelo vetorial

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

BRI---work-1

Trabalho 1 de Busca e Recuperação de Informações - Implementação de um sistema de recuperação em memória segundo o modelo vetorial.

Armazenado em repositório github (https://github.com/EBarbara/BRI---work-1)

Instruções:

  1. Instalar as bibliotecas LXML e NLTK
  2. Executar o arquivo App.py
  3. Ver os resultados

Organização das pastas

  • Código fonte e arquivos de descrição (readme e modelo) na raiz
  • config: Arquivos .cfg para configurar os módulos
  • csv: Arquivos .csv como resultados dos processamentos
    • Arquivo resultados.csv também é salvo nessa pasta
  • logs: Arquivos .log com os logs de execução dos módulos
  • xml: Arquivos .xml (e .dtd) com os dados de entrada do exercício

Bibliotecas externas usadas:

  • LXML (http://lxml.de/index.html), especificamente a api etree para parsing de arquivos xml verificados por dtd
  • NLTK (http://www.nltk.org/), especificamente a função word_tokenize para transformar um texto numa lista de palavras