EuropresseToLexico

Script python 3.6 permettant à partir d'un fichier HTML produit par le service Europresse d'exporter le contenu vers des fichiers de corpus lexicométriques compatiables avec les logiciels Lexico, Iramuteq et TXM.

Attention : ce script fonctionne avec le fichier HTML tel que produit par Europresse en mars 2019, il est possible que des changements surviennent par la suite et que ceux-ci posent des problèmes de compatibilité.

Fonctionnalités

Le script parcourt le fichier HTML produit par Europresse afin de récupérer pour chaque article :
- le titre du journal
- le titre de l'article
- le nom de l'auteur lorsqu'il est mentionné
- la date de publication de l'article
- le contenu de l'article
Ces différents éléments sont nettoyés et formatés afin d'éviter des erreurs d'importation dans les logiciles de lexicométrie.
Il est possible d'exporter au format Lexico, Iramuteq et en XML pour TXM.

Installation

Cloner le dépôt : git clone https://framagit.org/leodumont/EuropresseToLexico.git
Se déplacer dans le répertoire du script : cd EuropresseToLexico
Installer les dépendances avec pip : pip3 install -r requirements.txt

Utilisation

Appel du script : python3 EuropresseToLexico.py
- il faut alors indiquer le chemin vers le fichier HTML Europresse
- puis le format de corpus souhaité : "iramuteq", "lexico" ou "txm"
- un fichier de corpus est produit à la fin de l'exécution du script dans le répertoire courant.

Téléchargement du fichier HTML Europresse

Cf. vidéo https://framagit.org/leodumont/europressetolexico/-/blob/master/europresse_export_html.mp4

PirehP1/EuropresseToLexico

EuropresseToLexico

Fonctionnalités

Installation

Utilisation

Téléchargement du fichier HTML Europresse