Une installation fonctionnelle du gestionnaire d'environnement conda
.
Je recommande la distribution miniconda.
Provisionnez l'environnment avec conda
.
conda env create
Activez l'environnement dans votre shell.
conda activate inria-aphp-assignment
conda activate
peut nécessiter une étape d'initialisation avec conda init
.
Lancez Jupyter et accedez à l'interface web.
jupyter notebook
Ouvrir l'un des fichiers .ipynb
ci-dessous.
Ce répertoire contient les fichiers notebook suivants :
qa.ipynb
: le notebook contenant l'analyse de qualité du dataseteda.ipynb
: le notebook contenant l'analyse exploratoire du dataset
Ces fichiers utilisent les ressources suivantes :
data.db
: la base de données contenant le jeu de données brutesentity_resolution.py
: un module utilitaire contenant le code de nettoyage et déduplication du datasetgetting_started.py
: un module utilitaire contenant le code partagé de chargement du datasetstate_postcode.csv
: le référentiel des états et codes postaux australiensaus_state.geojson
: une carte de l'Australie au format GeoJSON distribuée sous licence MITaustralian_postcodes.csv
: un référentiel des codes postaux avec leurs coordonnées géodésiques
Le graphique ci-dessous illuste les traitements séquentiels effectués sur les données par la fonction detect_duplicates
utilisée dans l'analyse exploratoire.