📊 Projet N°6 : Implémentez un modèle de scoring

📌 Contexte et Objectif

Entreprise : Prêt à Dépenser
Logo :

🎯 Objectif

Développer un modèle de scoring de crédit permettant de prédire la capacité de remboursement des clients n'ayant pas ou peu d'historique bancaire.

📂 Jeux de données

📊 Données : Base de Données
🔍 Missions du projet :
- Construire un modèle de scoring capable de prédire la probabilité de défaut de paiement.
- Développer un dashboard interactif pour aider les gestionnaires de crédits à interpréter les prédictions.
- Mettre en production le modèle via une API Flask, intégrée au dashboard.

🚀 Réalisations et Méthodologie

1️⃣ Analyse des Données

Ouverture et exploration des fichiers
Préparation des données :
- Création et transformation des variables (dummisation, factorisation)
- Fusion des fichiers et simplification des datasets lourds
- Sélection des nouveaux clients pour l'application

2️⃣ Gestion du Déséquilibre des Données et Sélection du Modèle

📊 Techniques de gestion du déséquilibre :
- SMOTE, Class_Weight, Undersampling, Oversampling
⚙ Comparaison des modèles de Machine Learning :
- DummyClassifier, LogisticRegression, RandomForestClassifier, LGBMClassifier
- KNN et XGBOOST (trop longs à exécuter)
🔧 Optimisation des hyperparamètres via GridSearchCV
🏆 Meilleur modèle sélectionné : LGBMClassifier

3️⃣ Optimisation du Modèle et Interprétation

Réduction des variables (seuil < 70% de NaNs)
Évaluation des performances :
- Matrice de confusion pour validation des résultats
- Optimisation du seuil de probabilité pour améliorer la métrique de scoring
Analyse des variables les plus importantes :
- Feature Importances, SHAP globale et locale

4️⃣ Déploiement du Modèle

✅ Mise en production sur une API Flask hébergée sur Heroku
✅ Développement d'une application Streamlit intégrant l'API

🖥 Interface utilisateur :

📊 Exemple de prédiction pour un client :

📉 Graphiques explicatifs des prédictions :

5️⃣ Étude du Data Drift

Objectif : Analyser la stabilité du modèle au fil du temps
Variables utilisées : Top 20 features les plus influentes

🛠️ Technologies et Outils Utilisés

Langage : Python 🐍
Librairies : Pandas, Seaborn, Matplotlib, Scikit-learn, LightGBM, MLflow
Déploiement : Flask (API) sur Heroku, Dashboard Streamlit
Méthodes utilisées : Machine Learning, SHAP, Feature Engineering, Data Drift Analysis

📬 Contact et Feedback

💡 Ce projet a été réalisé dans le cadre de ma formation Data Science. N’hésitez pas à laisser vos suggestions ou à me contacter pour en discuter !

📩 Contact :
📧 johan.rocheteau@hotmail.fr
🔗 LinkedIn

JohanRocheteau/Formation_DS_P6_ML_Scoring_Credit