/OCR5

OpenClassRooms projet 5: Segmentez des clients

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

OCR5

OpenClassRooms projet 5: Classifiez automatiquement des biens de consommation

Données

Mission

  1. Réaliser, dans une première itération, une étude de faisabilité d'un moteur de classification d'articles, basé sur une image et une description, pour l'automatisation de l'attribution de la catégorie de l'article.
  2. Une réduction en 2 dimensions image
  3. Analyse du graphique afin d’en déduire faisabilité de regrouper automatiquement des produits de même catégorie.
  4. Réalisation d’une mesure pour confirmer ton analyse visuelle.
  5. Prétraitement et analyse textuelles et images (SIFT / ORB / SURF, CNN Transfer Learning) des produits.
    • Prétraitement textuelles image
    • Analyses textuelles: Bag-of-words, Tf-idf, Word2Vec, BERT, Universal Sentence Encoder image image image
    • Prétraitement images image
    • Analyses images: Extraction des prédicteurs, Kmean sur prédicteurs, Bag of Visual words image
    • Analyses images: Transfert learning ImageNet VGG16 entraînement non supervisé image image
    • Analyses images: Transfert learning ImageNet VGG16 entraînement supervisé image image

Compétences évaluées

  1. Prétraiter des données image pour obtenir un jeu de données exploitable
  2. Prétraiter des données texte pour obtenir un jeu de données exploitable
  3. Représenter graphiquement des données à grandes dimensions
  4. Mettre en œuvre des techniques de réduction de dimension
  5. Utiliser des techniques d’augmentation des données
  6. Définir la stratégie de collecte de données en recensant les API disponibles
  7. Définir la stratégie d’élaboration d’un modèle d'apprentissage profond
  8. Évaluer la performance des modèles d’apprentissage profond selon différents critères

Livrables

  1. Un ou des notebooks contenant les fonctions permettant le prétraitement et la feature extraction des données textes et images ainsi que les résultats de l’étude de faisabilité (graphiques, mesure de similarité).
  2. Un support de présentation pour la soutenance, détaillant le travail réalisé.