Ce dossier contient le tutoriel learnr pour le cours "Textométrie avec R".

Il est calibré pour

  • 10h30 de cours, en 3 séances de 3h30 si non précédé d'une initiation à R,
  • 6h en 2 séances de 3h sinon.

Le document textometrie_ministereco.Rmd comprend les commandes utilisées pour scraper et mettre en forme le corpus. Il génère notamment les jeux de données suivants:

  • tib_meta: les métadonnées (lien, titre, ministre, date)
  • tib_docs: les métadonnées, associées au texte brut
  • tib_textes: les métadonnées, associées au texte auquel on a appliqué un pré-traitement visant à identifier les mots propres
  • tib_lemmes: les lemmes (issus de la tokenisation de tib_textes et jointure avec un lexique)

Les données ne sont pas directement incluses dans le repo github car trop volumineuses. Elles sont accessibles en suivant les liens listés ici.