DGML (Data Gouv pour le Machine Learning)

Le projet DGML vise à la construction d'un catalogue de jeux de données de data.gouv.fr pour le Machine Learning.

Objectifs

Parmi le grand nombre de données ouvertes disponibles sur data.gouv.fr, il peut s'avérer difficile de trouver rapidement des jeux de données réutilisables par des algorithmes de ML et de déterminer si elles seraient adaptées à cette tâche. Dans DGML, vous pouvez rapidement séléctionner un jeu de données de data.gouv.fr pour le Machine Learning et avoir un aperçu rapide des informations utiles pour faire du Machine Learning sur ce jeu de données.

Ce que vous trouvez dans DGML

60 jeux de données réutilisables par des algorithmes de ML (cliquez ici pour avoir plus d'informations sur le choix des datasets), que vous pouvez trier par tâche (régression ou classification), par taille etc.

Pour chaque jeux de données vous trouvez:

Un profiling statistique , qui vous donne des infos sur les statistiques du jeu de données, la distribution de ses variables et des valeurs manquantes et les corrélations
Les résultats de l'entraînement et de la validation automatique d'algorithmes de ML sur ces datasets (cliquez ici pour mieux comprendre ces résultats)
Des exemples simples de code et les réutilisations faites sur data.gouv.fr

Comment utiliser ce repo en local

Cloner/Forker le repo (plus d'info ici)
Une fois dans le repo, installer les requirements à partir du fichier requirements.txt:
- Avec pip: pip install -r requirements.txt
- Avec conda:conda env create --name envname --file=environment.yml
Activer l'environnement

Pour lancer l'application, depuis votre ligne de commande, à la racine:

cd openml_app

python main.py

Libraries utilisées

pandas profiling pour le profiling statistique
mljar-supervised pour l'entraînement et test automatique des algortihmes de Machine Learning

etalab-ia/DGML

DGML (Data Gouv pour le Machine Learning)

Objectifs

Ce que vous trouvez dans DGML

Comment utiliser ce repo en local

Libraries utilisées

Ressources