/NLP_DM

Primary LanguageJupyter Notebook

Modélités d'évaluation

Démontrer votre capacité à créer une chaine de traitement des données textuelles sur l'analyse d'opinion et la classification de locuteur

  • Travail en monome ou binome :
  • Jeux de données
    • Revues de films
    • Chirac / Mitterrand
  • Analyses obligatoires
    • Comparer les performances avec différents pré-traitements
      • e.g Taille de vocabulaire, unigram/bigram, Stemming, ...
    • Implémenter un post-traitement sur les données Chirac/mittérrand
    • Appliquer les traitements optimaux sur les données de test et sauver les résultats dans un fichier txt
  • Compléments optionnels
    • Analyser les performances avec Word2Vec, en utilisant des stratégies d'agrégation naïves
  • Ecrire un rapport succinct
    • Présentant les courbes de performances pour les paramètres les plus influents/marquants
    • Quelques conclusions sur le travail effectué
  • Soumettre par mail:
    • Rapport, Notebook(s), 2 fichiers de scores (locuteur/opinion)