Projet pour le cours de fouille de textes dans le cadre du master TAL.
Nous sommes en première année de master TAL et dans le cadre du cours de Fouille de textes nous devons réaliser une analyse de données avec le logiciel Weka.
Récupérer des commentaires de jeux vidéos et essayer de trier automatiquement les commentaires avec la polarité négatif/positifs.
Nous avons extrait notre corpus du site internet Steam.
Dans notre cas, il va falloir retirer les images et les pseudo des utilisateurs.
- Certains commentaires en anglais apparaissent aussi -> langdetect
- Il faut supprimer les émojis.
Il est important de nettoyer notre corpus car nous allons par la suite utiliser un script qui s'appelle
vectorisation.py
pour convertir notre corpus collecté en données utilsables par Weka, un logiciel d'analyse
et d'exploiration de données pour le traitement automatique.
Il faut faire :
- les métriques (précision, rappel et f-mesure)
- Naive Bayes (théorème de Bayes)
- matrice de confusion (?)
- SVM (SMO sur Weka)
- arbre de décision C4,5 (J48 sur Weka)