Script pour le parsing des .html d'europresse vers Iramuteq
L'objectif du script est de traiter les html téléchargés d'europresse pour les rendre exploitables dans Iramuteq. Le script est adapté de https://rpubs.com/CorentinRoquebert/europresse.
- Placer les fichiers HTML dans le même dossier que les deux scripts R (sous windows, pas de dossier avec espaces ou caractères accentués dans le nom)
- Passer le script europresse_extract ligne à ligne dans RStudio
- On récupère à la fin des .csv à chaque étape de traitement des données
- Et un fichier .txt prêt pour Iramuteq