/Deep_Fake_project_2024

Le projet IA de la dernière année de master chef de projet IA et management à l'IA school du groupe GEMA porte sur les fake news et le deep Fake

Primary LanguageJupyter Notebook

Deep_Fake_project_2024

Le projet IA de la dernière année de master chef de projet IA et management à l'IA school du groupe GEMA porte sur les fake news et le deep Fake Pour faire simple il y a differentes manière de faire un projet: 1- s'inspirer des notebooks déjà créés sur le sujet et les modifier au fur et à mesur que nous avençons dans notre problématique 2-prendre un modèle déjà prêt et l'adapter à nos données (quand les données sont compatibles avec le modèle) 3-prendre les données d'un et appliquer le modèle d'un autre notebook une sorte de mix de deux projets 4-utiliser un notebook déjà prêt de kaggle et l'améliorer x1000

Le 19/10/2023 J'ai trouvé plusieurs bases de données plus ou moins corrélées à notre sujet j'ai trouvé plusieurs projets super interessants dont un note book dont voici le lien: https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset ses données sont les data_1

20/10/2023

  • set the default branch to "dev"
  • meeting Carlos Sureda with Rym and Mike disussing the accuracy of our project.
  • REMOVED branch "mike" due to beeing useless.

28/10/2023

  • Mike Pushed the report "interpretability of models using SHAP"

17/11/2023

  • Merge Rym branch to Dev branch
  • Creating "Data_Analysis" notebook
  • working on data analysis.

18/11/2023

  • added to Data analysis "distribution by subject"

27/10/2023

  • Recherche concernant l'interprétabilité d'un modèle.

14/12/2023

  • Analyse des données - Catégorie des nouvelles.

03/01/2024

  • Preuve que la colonne du sujet est biaisée.
  • Analyse complète du texte et du titre.

04/01/2024

  • Premier run complet de l'analyse de données, initiation de la création du modèle.
  • Structuration de la suite.

05/01/2024

  • creation d'un premier model de deep learning pour la détection de fake news.

16/01/2024

  • filtration des données de text, titre et isFake pour avoir un dataset finit.
  • transformation du text en données numériques avec le TF-IDF vectorizer.
  • Creation de 4 models différents : Passive Agressive Algorithm, Logistic regression, Decision Tree, Naive-Bayes et comparer leurs accuraacy respective.
  • Le model Passive aggressive a la meilleure accuracy pour le moment.

07/03/2024 à faire pour la prochaine: -data cleaning (test) -passif agressif optimisation de sa pipeline -Comprendre l'optimisation de ce model

10/05/2024 Generer et arranger le vrAI