Les données de la Banque mondiale sont disponibles à l’adresse suivante : https://datacatalog.worldbank.org/dataset/education-statistics.
-
Valider la qualité de ce jeu de données (comporte-t-il beaucoup de données manquantes, dupliquées ?)
-
Décrire les informations contenues dans le jeu de données (nombre de colonnes ? nombre de lignes ?)
-
Sélectionner les informations qui semblent pertinentes pour répondre à la problématique (quelles sont les colonnes contenant des informations qui peuvent être utiles pour répondre à la problématique de l’entreprise ?)
-
Déterminer des ordres de grandeurs des indicateurs statistiques classiques pour les différentes zones géographiques et pays du monde (moyenne/médiane/écart-type par pays et par continent ou bloc géographique)
-
Mettre en place un environnement Python
-
Effectuer une représentation graphique à l'aide d'une librairie Python adaptée (matrice de corrélation, séries temporelles)
-
Manipuler des données avec des librairies Python spécialisées (Pandas)
-
Maîtriser les opérations fondamentales du langage Python pour la Data Science
-
Utiliser un notebook Jupyter pour faciliter la rédaction du code et la collaboration
-
Un notebook comportant les analyses pré-exploratoires réalisées (non cleané, pour comprendre votre démarche).
-
Un support de présentation pour la soutenance.