Rotinas Auxiliares em Python para o Trabalho Prático que abrange:
- a indexação de documentos,
- a execução de consultas e
- formatação dos rankings dos resultados, para posterior avaliação com trec_eval.
Os subdiretórios efe95, efe95_json e efe95_ndjson contém apenas dados relativos aos primeiros 10 documentos da coleção, apenas para não sobrecarregar esse repositório no github. No entanto, servem para conhecer como cada documento foi adaptado de formato SGML em formatos JSON.
O arquivo Topicos.txt contém os dados pertinentes às consultas.