Projet de fin de semestre pour le cours de fouille de texte (M1 TAL 2022-2023)
Charlotte Schermesser et Léna Gaubert
corpus_xml
: contient les wikidumps exportés au format xml, les listes des articles (insect_pagelist.txt
etnoninsect_pagelist.txt
)corpus
: composé de deux dossiers,insects
etnon-insects
; chaque dossier contient tous les articles (format.txt
) appartenant à la classe qu'il désigne.weka
: données vectorisées pour Weka à partir du scriptsvectorisation.py
scripts
: tous les scripts python & notebook utilisés dans ce projet.graph
: graphiques et matrice de confusion obtenus grâce à nos scripts.insects_or_not.csv
: notre base de données pour le travail effectué avec Python.