insects-or-not

Projet de fin de semestre pour le cours de fouille de texte (M1 TAL 2022-2023)

Charlotte Schermesser et Léna Gaubert

corpus_xml : contient les wikidumps exportés au format xml, les listes des articles (insect_pagelist.txt et noninsect_pagelist.txt)
corpus : composé de deux dossiers, insects et non-insects ; chaque dossier contient tous les articles (format .txt) appartenant à la classe qu'il désigne.
weka : données vectorisées pour Weka à partir du scripts vectorisation.py
scripts : tous les scripts python & notebook utilisés dans ce projet.
graph : graphiques et matrice de confusion obtenus grâce à nos scripts.
insects_or_not.csv : notre base de données pour le travail effectué avec Python.

kittog/insects-or-not