Parcours Data Science
Projet n°8 : "Déployez un modèle dans le cloud"
- Mise en place d'une infrastructure de prétraitement de données dans le cloud, en vue d'une augmentation du volume des données
- Configuration d'une instance AWS EC2 (OS Ubuntu Server 18.04)
- Réalisation de scripts pyspark et exécution dans le cloud
- Lecture et enregistrement de données sur Amazon S3
- Appel à la librairie MLLib pour approche Transfer Learning du prétraitement
Source des données : https://www.kaggle.com/moltean/fruits
- Utiliser les outils du cloud pour manipuler des données dans un environnement Big Data
- Paralléliser des opérations de calcul avec Pyspark
- Identifier les outils du cloud permettant de mettre en place un environnement Big Data