Europresse_to_iramuteq

Script pour le parsing des .html d'europresse vers Iramuteq

L'objectif du script est de traiter les html téléchargés d'europresse pour les rendre exploitables dans Iramuteq. Le script est adapté de https://rpubs.com/CorentinRoquebert/europresse.

Mode d'emploi

Placer les fichiers HTML dans le même dossier que les deux scripts R (sous windows, pas de dossier avec espaces ou caractères accentués dans le nom)
Passer le script europresse_extract ligne à ligne dans RStudio
On récupère à la fin des .csv à chaque étape de traitement des données
Et un fichier .txt prêt pour Iramuteq

mtriclot/Europresse_to_iramuteq

Europresse_to_iramuteq

Mode d'emploi