/DGML

This repo contains the code used to develop DGML (Data Gouv for Machine Learning), a data repository of datasets from data.gouv.fr for Machine Learning.

Primary LanguageJupyter NotebookMIT LicenseMIT

DGML (Data Gouv pour le Machine Learning)

en

Le projet DGML vise à la construction d'un catalogue de jeux de données de data.gouv.fr pour le Machine Learning.

🔗 datascience.etalab.studio/dgml/

Objectifs

Parmi le grand nombre de données ouvertes disponibles sur data.gouv.fr, il peut s'avérer difficile de trouver rapidement des jeux de données réutilisables par des algorithmes de ML et de déterminer si elles seraient adaptées à cette tâche. Dans DGML, vous pouvez rapidement séléctionner un jeu de données de data.gouv.fr pour le Machine Learning et avoir un aperçu rapide des informations utiles pour faire du Machine Learning sur ce jeu de données.

Ce que vous trouvez dans DGML

  • 60 jeux de données réutilisables par des algorithmes de ML (cliquez ici pour avoir plus d'informations sur le choix des datasets), que vous pouvez trier par tâche (régression ou classification), par taille etc.

Pour chaque jeux de données vous trouvez:

  • Un profiling statistique , qui vous donne des infos sur les statistiques du jeu de données, la distribution de ses variables et des valeurs manquantes et les corrélations

  • Les résultats de l'entraînement et de la validation automatique d'algorithmes de ML sur ces datasets (cliquez ici pour mieux comprendre ces résultats)

  • Des exemples simples de code et les réutilisations faites sur data.gouv.fr

Comment utiliser ce repo en local

  1. Cloner/Forker le repo (plus d'info ici)
  2. Une fois dans le repo, installer les requirements à partir du fichier requirements.txt:
    • Avec pip: pip install -r requirements.txt
    • Avec conda:conda env create --name envname --file=environment.yml
  3. Activer l'environnement

Pour lancer l'application, depuis votre ligne de commande, à la racine:

cd openml_app

python main.py

Libraries utilisées

Ressources