Le projet IA de la dernière année de master chef de projet IA et management à l'IA school du groupe GEMA porte sur les fake news et le deep Fake Pour faire simple il y a differentes manière de faire un projet: 1- s'inspirer des notebooks déjà créés sur le sujet et les modifier au fur et à mesur que nous avençons dans notre problématique 2-prendre un modèle déjà prêt et l'adapter à nos données (quand les données sont compatibles avec le modèle) 3-prendre les données d'un et appliquer le modèle d'un autre notebook une sorte de mix de deux projets 4-utiliser un notebook déjà prêt de kaggle et l'améliorer x1000
Le 19/10/2023 J'ai trouvé plusieurs bases de données plus ou moins corrélées à notre sujet j'ai trouvé plusieurs projets super interessants dont un note book dont voici le lien: https://www.kaggle.com/datasets/clmentbisaillon/fake-and-real-news-dataset ses données sont les data_1
20/10/2023
- set the default branch to "dev"
- meeting Carlos Sureda with Rym and Mike disussing the accuracy of our project.
- REMOVED branch "mike" due to beeing useless.
28/10/2023
- Mike Pushed the report "interpretability of models using SHAP"
17/11/2023
- Merge Rym branch to Dev branch
- Creating "Data_Analysis" notebook
- working on data analysis.
18/11/2023
- added to Data analysis "distribution by subject"
27/10/2023
- Recherche concernant l'interprétabilité d'un modèle.
14/12/2023
- Analyse des données - Catégorie des nouvelles.
03/01/2024
- Preuve que la colonne du sujet est biaisée.
- Analyse complète du texte et du titre.
04/01/2024
- Premier run complet de l'analyse de données, initiation de la création du modèle.
- Structuration de la suite.
05/01/2024
- creation d'un premier model de deep learning pour la détection de fake news.
16/01/2024
- filtration des données de text, titre et isFake pour avoir un dataset finit.
- transformation du text en données numériques avec le TF-IDF vectorizer.
- Creation de 4 models différents : Passive Agressive Algorithm, Logistic regression, Decision Tree, Naive-Bayes et comparer leurs accuraacy respective.
- Le model Passive aggressive a la meilleure accuracy pour le moment.
07/03/2024 à faire pour la prochaine: -data cleaning (test) -passif agressif optimisation de sa pipeline -Comprendre l'optimisation de ce model
10/05/2024 Generer et arranger le vrAI