/sdd_2020

Cours « science des données » à Mines ParisTech (2019-2020)

Primary LanguageJupyter NotebookOtherNOASSERTION

UE 21 EC Science des données

Cours « science des données » à Mines ParisTech (2019-2020).

License: CC BY-SA 4.0

Équipe pédagogique

  • Responsable de cours : Chloé-Agathe Azencott
  • Chargés d'enseignement : Nicolas Desassis, Arthur Imbert, Tristan Lazard, Thibaud Martinez, et Matthieu Najm.

Objectifs du cours L’EC de Sciences des données sera une introduction générale à l’analyse des données telles qu’elles peuvent apparaître dans de nombreux domaines de l’ingénierie. Il présentera des concepts d’analyse statistique des données et d’apprentissage automatique, en se concentrant sur les aspects de classification et de régression. Il vous permettra de comprendre quelques enjeux majeurs de la modélisation statistique des données : estimation, tests, apprentissage (machine learning), validation et bonnes pratiques.

Compétences Ce cours a pour but de vous permettre d'acquérir les compétences suivantes :

  • Choisir la famille de méthodes statistiques permettant de répondre à un problème concret avec des données réelles ;
  • Maîtriser des méthodes statistiques usuelles permettant de traiter convenablement des cas simples d’analyse de données ;
  • Maîtriser des méthodes usuelles d’exploration des données ;
  • Connaître les limites d’applications de ces méthodes ;
  • Connaître des méthodes d’apprentissage statistique (machine learning) supervisé et des méthodes d’apprentissage statistique non supervisé ;
  • Savoir valider et sélectionner un modèle d'apprentissage supervisé.

Modalités pédagogiques (en confinement)

  • 9x1h30 de cours au tableau :
    • lecture en autonomie du poly, accompagnée d'un commentaire audio (pdf et mp3 disponibles la veille au soir autant que possible) ;
    • possibilité d'échanges sur slack en fin de séance (channel "#amphis") ;
    • un bref QCM à faire à la fin de chaque séance afin de vous aider à cerner si vous avez compris les points clés du cours, et m'aider (si vous posez des questions dessus) à évaluer les points mal compris sur lesquels revenir. La solution du QCM est donnée.
  • 7x1h30 de petites classes (2 séances de TD + 5 séances de TP sur machine) :
    • sur slack (channel "#groupe_pc_<votre numéro de PC>") ;
    • le sujet de chaque PC sera disponible la veille de la séance ;
    • le corrigé sera disponible dans les jours qui suivent.

Modalités d'évaluation

  • mini-projet numérique à réaliser en majorité sur les séances de TP du 20 mai et du 17 juin et à rendre le 1er juillet (30%).
  • examen sur table avec documents autorisés à réaliser le 1er juillet (70%).

Vous aurez le choix entre les deux modes d'évaluation suivant :

  • rapport de projet numérique, basé sur le mini-projet numérique des séances de PC du 20 mai et du 17 juin. Travail individuel ou en binôme sur le code + rapport individuel. Les consignes sont dans le dossier projet/.
  • examen avec documents autorisés à réaliser le 1er juillet.

Emploi du temps

  • mercredi 22/04 :

    • 11h-12h30 : cours 1 — Introduction et statistique descriptive (Chapitres 1 & 2)
    • 14h-15h30 : cours 2 — Estimation et propriétés d'un estimateur (Chapitre 3, sections 3.1 à 3.4)
  • mercredi 29/04 :

    • 11h-12h30 : cours 3 — Techniques d'estimation (Chapitre 3, sections 3.5 & 3.6)
    • 14h-15h30 : cours 4 — Tests statistiques (Chapitre 4)
  • mercredi 6/05 :

    • 11h-12h30 : PC 1 — Statistique inférentielle
    • 14h-15h30 : cours 5 — Réduction de dimension (Chapitre 5)
  • mercredi 13/05 :

    • 11h-12h30 : PC 2 — Réduction de dimension
    • 14h-15h30 : cours 6 — Introduction à l'apprentissage supervisé (Chapitre 7)
  • mercredi 20/05 :

    • 11h-12h30 : PC 3 — Pré-traitement & introduction au mini-projet numérique
    • 14h-15h30 : PC 4 — Mini-projet numérique (1)
  • mercredi 3/06 :

    • 11h-12h30 : cours 7 — Bonnes pratiques (Chapitre 6)
    • 14h-15h30 : cours 8 — Régularisation (Chapitre 8)
  • mercredi 10/06 :

    • 11h-12h30 : PC 5 — Sélection de modèles
    • 14h-15h30 : PC 6 — Modèles linéaires pour la classification
  • mercredi 17/06 :

    • 14h-15h30 : cours 9 — Modèles d'apprentissage supervisé non-linéaires (Chapitre 9)
    • 16h-17h30 : PC 7 — Mini-projet numérique (2)
  • mercredi 1/07 9h-12h : examen écrit.