/insects-or-not

Projet de fin de semestre pour le cours de fouille de texte (M1 TAL 2022-2023)

Primary LanguageJupyter Notebook

insects-or-not

Projet de fin de semestre pour le cours de fouille de texte (M1 TAL 2022-2023)

Charlotte Schermesser et Léna Gaubert

  • corpus_xml : contient les wikidumps exportés au format xml, les listes des articles (insect_pagelist.txt et noninsect_pagelist.txt)
  • corpus : composé de deux dossiers, insects et non-insects ; chaque dossier contient tous les articles (format .txt) appartenant à la classe qu'il désigne.
  • weka : données vectorisées pour Weka à partir du scripts vectorisation.py
  • scripts : tous les scripts python & notebook utilisés dans ce projet.
  • graph : graphiques et matrice de confusion obtenus grâce à nos scripts.
  • insects_or_not.csv : notre base de données pour le travail effectué avec Python.