InseeFrLab/utilitR

Mettre à jour le discours sur readr avec les apports de sa version 2 ?

ericemc3 opened this issue · 3 comments

cf https://www.tidyverse.org/blog/2021/07/readr-2-0-0/

"il est rare d’avoir vraiment besoin d’utiliser read_delim()."

Je trouve read_delim() très pratique depuis qu'il devine automatiquement le bon délimiteur, c'est mon choix par défaut pour attaquer un csv, le plus souvent je n'ai qu'un seul paramètre à lui indiquer, le chemin vers le fichier.

"ll est nettement plus simple de sélectionner des colonnes avec fread() qu’avec les fonctions du package readr."

L'introduction du paramètre col_select amène à readr toute la puissance de la tidy-selection : c'est redoutablement efficace, et de mon point de vue fort simple.

Enfin deux autres points forts :

  • read_delim() peut lire directement des csv zippés (hors web)
  • read_delim() avec l'option lazy = TRUE lit plutôt efficacement des fichiers de plus de 1 Go

Sur ce dernier point arrow::read_delim_arrow() est aussi de plus en plus impressionnant et présente la même syntaxe que readr::read_delim().

Je trouve plus simple de n'avoir à ou faire apprendre qu'une seule fonction, et jusqu'à présent, je n'ai jamais eu besoin d'en passer par fread.

Bonjour Eric, merci beaucoup pour tes retours très intéressants !

Si read_delim est devenu aussi pratique, pour ma part je suis favorable à le privilégier par rapport à read_csv.
Cette fiche a peut-être un peu vieilli depuis le temps qu'elle a été écrite. Comme je n'ai pas fait du tidyverse depuis longtemps, je suis preneur des avis de personnes l'utilisant plus fréquemment, notamment @acazaubiel et @py-b

py-b commented

Bonjour,
Désolé, je n'utilise que très rarement readr (les fonctions de r-base font souvent très bien l'affaire pour ce que j'ai a faire).

  • Je ferme cette issue puisqu'on a révisé le discours il y a quelques temps via #451