Le projet
Le projet se déroule sur 8 mois d'Avril à Novembre 2020 et il se compose de 4 livrables distincts :
- Livrable 1 : SOCLE TECHNIQUE D’INGESTION DES DONNEES
- Livrable 2 : ALGORITHMES DE CLASSIFICATION DES SIGNALEMENTS
- Livrable 3 : ALGORITHME DE REGROUPEMENT DES SIGNALEMENTS
- Livrable 4 : INTERFACE DE TRAITEMENTS DES SIGNALEMENTS
Une description plus complète de chacun des livrables se trouve dans la réponse à l'appel d'offre. De plus dans chacun des livrables est associés à un dossier/package de code python et le readme de ces packages contient des informations essentielles sur les choix techniques mis en place.
Organisation du GitLab
Ce répertoire git est organisé en 3 dossiers différents :
- application/backend: livrable L4. Backend applicatif permettant d'explorer les données de clustering, et de catégoriser/clusteriser de nouveaux documents
- demonstrateur: Les scripts qui permettent de présenter les résultats dans une interface web jupyter et d'ingérer les données PDF,XML (Livrable 1, Livrable 2). OBSOLETE. Préférer l'utilisation du livrable 4
- prediction_models: Les scripts et les modèles d'inférence de la DCO, de la TYPOLOGIE et de la GRAVITÉ pour une base de fichier PDF ou XML (Livrable 2)
- regroupement : Les algorithmes et les modèles pour le regroupement des signalements (Livrable 3)
- test: Les scripts pour les test unitaires
Chaque dossier contient un readme pour expliciter le fonctionnement de chaque livrable, ainsi qu'un fichier requirements pour les packages à installer.
Dans les grandes lignes :
- Pour entraîner de nouveaux modèles de classification: Il faut tout d'abord modifier dans le fichier training/config.yaml le chemin vers les nouvelles données. Il faut ensuite lancer le sript prediction_models/training/global_training.py. Un dossier contenant l'ensemble des modèles de classification est crée.
- pour entraîner un nouveau modèle de clustering: Il faut modifier le fichier de regroupement/training/config.yaml afin de choisir les nouveaux paramètres du modèle et d'indiquer le l'emplacement de la base de donnée mis à jour. Puis, il faut lancer le script python regroupement/training/train.py Un dossier contenant les fichiers clefs du modèle est alors créer dans l'emplacement choisi config.yaml/path_to_save
- pour les déployer dans le L4:
- récupérer le directory des nouveaux modèles de classification, les copier dans l4_data_dir(application/backend/src/data)/models
- récupérer le directory des nouveaux modèles de topics / clusters et les copier dans l4_data_dir/clusters
- redémarrer le docker
- Robin Quillivic
- Louise Remot
- Boris Sanchot
- Cyril Poulet
Ce projet est privé. This project is completely private.
-
installer les packages suivants :
pip3 install -U sphinx recommonmark sphinx-markdown-tables sphinxjp.themes.basicstrap sphinx_bootstrap_theme
-
générer la doc dans documentation/build/html
cd documentation & make html