/ISDS-ISUP3

Ingénierie Statistique et Data Science (ISDS) du master Ingénierie mathématiques de Sorbonne Université et d'ISUP. (Cours et projets)

ISDS (ISUP et Sorbonne Université)

Ingénierie, Statistique et Data Science (ISDS) du master Ingénieris Mathématiques Appliquées de Sorbonne Université et d'ISUP.

🔗[https://isup.sorbonne-universite.fr/formations/filiere-ingenierie-statistique-et-data-science-isds]
🔗[https://sciences.sorbonne-universite.fr/formation-sciences/masters/master-mathematiques-et-applications/m2-parcours-ingenierie-mathematique]

PROGRAMME ISDS 2 - ISUP3

1.1 UE - Mathématiques et modélisation

Machine Learning (prof. Claire Boyer) :

Ce cours présente les grands principes de l’apprentissage statistique et automatique et les principales méthodes de prédiction (classification et régression), de clustering et de réduction de dimension. On s’attachera à aborder l’apprentissage automatique d’un point de vue théorique mais aussi d’un point de vue algorithmique, puisque la plupart des concepts pourront s’illustrer par des travaux pratiques en Python. Il a pour but de fournir les outils nécessaires à :

  • Identidier les problèmes qui peuvent être résolus par des approches de Machine Learning ;

  • Formaliser ces problèmes en termes de Machine Learning ;

  • Identifier les algorithmes les plus appropriés pour ces problèmes et les mettre en œuvre afin d’en comprendre les tenants et aboutissants ;

  • Evaluer et comparer de la manière la plus objective possible les performances de plusieurs algorithmes de Machine Learning et du Deep Learning pour une application particulière.

  • Principe de minimisation du risque empirique, théorie de Vapnik-Chervonenkis;

  • Optimisation pour le machine learning;

  • Apprentissage supervisé: méthodes paramétriques, à noyaux et non paramétriques;

  • Apprentissage non-supervisé: clustering et réduction de dimension;

  • Complétion de matrice;

  • Introduction au deep learning (pour l'UE de Spécialisation).

Calcul stochastique (Prof. Zhan Shi) :

L’objet de la théorie des processus stochastiques est l’étude des phénomènes aléatoires dépendant du temps. Le but de ce cours est d'introduire les notions de martingales, de mouvement brownien et d'intégrales stochastiques par rapport au mouvement brownien ainsi que les bases du calcul d'Itô.

  • Martingales à temps discret, martingales à temps continu, convergences et théorème d’arrêt;
  • Mouvement brownien, propriété de Markov et propriété de martingale;
  • Intégrale stochastique par rapport au mouvement brownien, formule d’Itô, théorème de Girsanov.
  • Introduction aux équations différentielles stochastiques, équations à coefficients lipschitziens, diffusions et propriété de Markov.

1.2 UE - Ingénierie 1

Modèles aléatoires (Prof. Olivier Bardou):

Ce module a pour objectif d'aborder la modélisation Markovienne. Ces processus sont très intéressants dans la mesure où ils possèdent de nombreuses applications. La découverte de ces processus de Markov comme nous le voyons sous-entend une compréhension mathématique du phénomène mais aussi une approche pragmatique grâce à des exercices appliqués à des situations quotidiennes.

  • Chaînes de Markov à temps discret;
  • Processus de sauts markoviens;
  • Propriétés des processus en temps long, théorèmes ergodiques.
  • etc.

TP C/C++ (Prof. Vincent Lemaire) :

Maîtriser les principes fondamentaux de la conception objet et les pratiquer de façon effective en C++ au travers d’une application réalisée de façon itérative. Mettre en œuvre les nouveautés offertes par la dernière norme C++ 11 / 14. Les différents aspects abordés pendant ce cours sont les suivants :

  • Syntaxe classique du C/C++;
  • Programmation orientée objets (classes, héritage, polymorphisme dynamique) ;
  • Programmation générique (Template, STL, polymorphisme statique);
  • la programmation moderne du C++14 et l’intégration avec R via Rcpp et Python via pybind11;
  • Exemples numériques liés aux équations paraboliques (méthodes déterministes et aléatoires).

Méthodes Numériques (Prof. Cindy Guichard) :

Ce cours traite de la discrétisation des équation aux dérivées partielles (EDP) en 1D (une dimension) et 2D notamment par la méthode des différences finies.

Retour au programme


2. BLOC fondamental : UE - Ingénierie 2 et UE - Informatique pour l'ingénierie

2.1 UE - Ingénierie 2

Modèles à structures latente (Prof. Jean-Patrick Baudry):

Ce module aborde l'ensemble des techniques d’exploration des données servant à résumer les informations sur les données ou à déterminer des liens entre les points. Il a pour but principal de structurer les données en classes homogènes. C'est-à-dire, regrouper les points (individus) en clusters ou classes de telles sortes que les données d’un cluster soient les plus similaires possibles. Ce cours, tout comme les cours cités dans mes rapports précédant, y compris ce rapport et ceux à venir, se veut pratique en proposant des exercices de TP par binôme et des application concrètes mis en ouvre principalement avec le logiciels R. Les notions abordées dans ce cours apportent des réponses concrètes aux problématiques liées :

  • A la nature des observations (données) ;
  • Au notion de similarité ou de dissimilarité entre observations ;
  • Aux caractéristiques d’un cluster ;
  • Au choix du nombre (optimal) de clusters et aux comparaisons de différents résultats de clustering ;
  • au fonctionnement des algorithmes de clustering et au choix de ces algorithmes (ACP, Kmeans, CHA, Model-Based Clustering, Méthodes bayésiennes, Markov chain Monte Carlo (MCMC methode)) ;
  • etc.

Robustesse et modèles (Prof. Michel Broniatowski) :

La robustesse implique une insensibilité aux écarts dûs à une non-conformité aux hypothèses sous-jacentes à un modèle probabiliste. Autrement dit, la robustesse est la capacité à généraliser les conclusions d'une analyse statistique et prédictive : c'est le principe de ce cours. Et les notions vues dans ce cours sont les suivantes :

  • Modèles paramétriques et semi paramétriques ;
  • Critères statistiques, vraisemblance et divergences, risques empiriques ;
  • Vraisemblance empirique et méthodes associées ;
  • Sélection de modèles (cadre bayésien, cadre inférentiel) ;
  • Inférence robuste , fonctionnelles statistiques, différentiabiité des fonctionnelles ;
  • fonctions d’influence, sensibilité et outliers. M-estimateurs, L-estimateurs ;
  • etc.

2.2 UE - Informatique pour l'ingénierie

Séries chronologiques (Prof. Jean-Patrick Baudry) :

Le principe de ce cours est d'apprendre à modéliser et à manipuler des données dont la structure est déterminée par les corrélations au cours du temps, et d’en tirer des conséquences pour des prises de décision. Et l’un des objectifs principaux de l’étude des séries chronologiques est la prévision des valeurs futures de ces séries. Les points abordés sont :

  • Vecteurs aléatoires du second ordre et vecteurs gaussiens;
  • Prévision linéaire;
  • Modèle de Kalman et filtrage;
  • Séries temporelles et modèle ARMA.

Contrôle qualité (Prof. Mitra Fouladirad) :

les objectifs de ce cours sont les suivants :

  • Comprendre les événements et trouver les causes de la variabilité dans un procédé ;
  • Expliquer les bases de la carte de contrôle Shewhart, en expliquant le choix de la taille de l’échantillon, les limites de contrôle, les intervalles d’échantillonnage ;
  • Expliquer le concept des sous-groupes ;
  • Comprendre les sept bases de Contrôle Statistique des procédés (CSP) ;
  • Expliquer les deux phases de carte de contrôle ;
  • Expliquer l’utilisation de la durée moyenne de détection pour une carte de contrôle ;
  • Analyse graphique de la carte de contrôle.

Programmation en Python (Prof. Pascal Havé) :

Ce cours aborde les concepts courants de la programmation en Python; la programmation orientée objet en Python; manipulation des principales librairies Python (tableaux avec Numpy, jeu de données grâce à Pandas, etc.). Son but est de conduire à une bonne maîtrise des bases des outils python permettant de manipuler et représenter les données, etc.

Introduction au CUDA (GPU) (Prof. Roman Lakymchuk et Bouazza Saadeddine) :

Ce cours introduit de façon simple et efficace à la simulation sur GPU (Graphics Processing Units). Il est agencé autour de la simulation Monte Carlo fortement adaptée à la parallélisation. Il permet ainsi de se concentrer sur les optimisations permises par l’architecture du GPU.

Retour au programme


3. BLOC de spécialisation : UE - Spécialisation 1 et UE - Spécialisation 2

3.1 UE - Spécialisation 2

Réseaux neuronaux | Data Science (Prof. Annick Valibouze):

....... (en cours de rédaction)

.......

Calcul parallèle : Unité Calcul à Haute Performance (Prof. François-Xavier Roux et Prof. Xavier Juvigny) :

les objectif du cours sont les suivants :

  • la maîtrise des techniques algorithmiques pour la construction de programmes parallèles portables et efficaces;
  • Comprendre et connaître l’architecture des ressources disponibles, pour les choisir correctement et les exploiter pleinement;
  • Connaître les modèles de programmation parallèle et leurs liens avec les architectures;
  • Comprendre le comportement du programme, des algorithmes;
  • Evaluer les performances d’un programme dans différents contextes;
  • Trouver des indicateurs pertinents, des métriques. Savoir les interpréter.;
  • Calculer le gain relativement à un calcul séquentiel ou sur une autre architecture;
  • Etc. Le but du calcul parallèle est d'aller p fois plus vite/loin avec p processeurs : augmenter la fréquence d’horloge, augmenter le nombre d’opérations effectuées en un cycle.

3.2 UE - Spécialisation 1

Bases de données (Prof. Florian Pons) :

  • Python, SQLite, SQL et NoSQL, JavaScript, VBA
  • Propriétés ACID (Atomicité, Cohérence, Isolation, Durabilité)
  • principes de conception logiciel (lisibilité du code, modularité, over-engineering, gestion des erreurs, gestion de projet informatique, complexité, etc.)

Statistiques industrielles : Fiabilité (Prof. Emmanuel Rémy) :

Assurer la sûreté et la performance des systèmes industriels et limiter leur impact sur l’environnement sont des enjeux majeurs pour tous les industriels, quel que soit le secteur d’activités (agroalimentaire, armement, aéronautique, automobile, chimie, énergie, ferroviaire, métallurgie, pharmaceutique. . . ). De tels objectifs passent nécessairement par une évaluation précise de la fiabilité des équipements, c’est-à-dire leur aptitude à ne pas tomber en panne. Les méthodes probabilistes et statistiques sont des outils bien adaptés pour quantifier les risques de défaillance. En fonction des connaissances disponibles, différentes approches sont envisageables :

  • Fréquentistes pour traiter les données de retour d’expérience d’exploitation et de maintenance des matériels;
  • Bayésiennes pour tirer profit de dires de spécialistes métier;
  • Structurelles pour manipuler les résultats de calculs de modèles ou de codes de simulation numérique de phénomènes physiques. Le cours a pour ambition de présenter les techniques de base utilisées dans les trois types d’approches, en adoptant une orientation délibérément applicative. À noter qu’un grand nombre des méthodes présentées dans le cours sont appliquées dans d’autres domaines pour d’autres finalités, comme l’actuariat ou l’épidémiologie. L'objectifs : acquérir les concepts et les méthodes probabilistes et statistiques de base pour l’évaluation de la fiabilité des matériels industriels.

Statistiques industrielles : Plans d'expériences (Prof. Maeva Biret, Catherine Duveau) :

Le comportement des produits industriels est généralement fonction de nombreux phénomènes, souvent dépendants les uns des autres. Pour prévoir ce comportement, le produit et les phénomènes sont modélisés, et des simulations sont effectuées ; la pertinence des résultats des simulations dépend de la qualité des modèles. Les plans d'expériences permettent d'organiser au mieux les essais qui accompagnent une recherche scientifique ou des études industrielles. Ils sont applicables à de nombreuses disciplines et à toutes les industries à partir du moment où l’on recherche le lien qui existe entre une grandeur d’intérêt (Y) et des variables (Xi). Elle a donc pour but de déterminer des modèles mathématiques reliant les grandeurs d’intérêt aux variables contrôlables. Les plans d'expériences apportent une aide notoire aux expérimentateurs et constituent un outil indispensable à toute élaboration de stratégies expérimentales sans restriction disciplinaire. Parmi les industries pouvant utiliser cette méthodologie, on peut notamment citer:

  • Industries chimique, pétrochimique et pharmaceutique;
  • Industries mécanique et automobile;
  • Industrie métallurgique;
  • etc. L'objectifs : acquérir les concepts et les méthodes des plans d'expériences visant les objectifs suivants : détermination des facteurs clés dans la conception d'un nouveau produit ou d'un nouveau procédé ; optimisation des réglages d'un procédé de fabrication ou d'un appareil de mesure; prédiction par modélisation du comportement d'un procédé.

Les plans d'expériences s'inscrivent dans une démarche générale d'amélioration de la qualité. Le contexte de leur utilisation recouvre des phénomènes de type « boîte noire » que l’on cherche à éclaircir pour mieux comprendre le fonctionnement et en optimiser les performances. La démarche est expérimentale : l’information sur le phénomène est acquise à partir des essais.



🔗[https://www.lpsm.paris/M2IngMath/isds/enseignements/]