Intégration de sources de données textuelles
Les documents textuels sont disponibles en très grands nombres sur le web. Cependant, l'exploitation automatique de ces documents demeure un défi à cause de la difficulté à interpréter leur contenu. L'objectif de ce travail est d'intégrer une telle source dans une base de données pour ensuite expérimenter des algorithmes de fouille de texte.
Les tâches à réaliser sont donc :
- Étude de la source de données sélectionnée
- Choix argumenté du modèle de données cible
- Implémentation des scripts d'intégration des sources
- Expérimentation d'algorithmes de fouille de textes
La version de Python recommandé est la 3.8.10
.
Pour faire fonctionner l'application un serveur local PostgreSQL
est nécessaire.
Pour installer les dépendances requises au projet, exécuter la commande suivante :
pip3 install -r requirements.txt
python3 main.py --user [name] --pwd [password] --host [host] --port [num_port] --db [nom_bd]
Théophile Molinatti alias theophiIe
Quentin Gruchet alias QGruchet
Johann Ramanandraitsiory alias uvsq21805057