textometrie_exos: An HTML repository from lvaudor

Ce dossier contient le tutoriel learnr pour le cours "Textométrie avec R".

Il est calibré pour

10h30 de cours, en 3 séances de 3h30 si non précédé d'une initiation à R,
6h en 2 séances de 3h sinon.

Le document textometrie_ministereco.Rmd comprend les commandes utilisées pour scraper et mettre en forme le corpus. Il génère notamment les jeux de données suivants:

tib_meta: les métadonnées (lien, titre, ministre, date)
tib_docs: les métadonnées, associées au texte brut
tib_textes: les métadonnées, associées au texte auquel on a appliqué un pré-traitement visant à identifier les mots propres
tib_lemmes: les lemmes (issus de la tokenisation de tib_textes et jointure avec un lexique)

Les données ne sont pas directement incluses dans le repo github car trop volumineuses. Elles sont accessibles en suivant les liens listés ici.

lvaudor/textometrie_exos