Ce guide présente quelques exemples d'utilisation des données du
recensement de la population diffusées au format Parquet
.
La version mise en forme au format HTML est disponible sur le site web du réseau des data scientists de la statistique publique (https://ssphub.netlify.app/post/parquetrp/).
Ce dépôt accompagne la mise à disposition des données
du recensement de la population au format Parquet
sur le site insee.fr.
Les pages d'informations sur les données, où sont notamment disponibles
la documentation de celles-ci,
se retrouvent sur le site insee.fr
aux adresses suivantes:
Ces pages présentent aussi les données détaillées au format CSV
. Néanmoins, le format Parquet
est plus intéressant pour le traitement de celles-ci. Les données au format Parquet
sont mises à disposition sur
le site data.gouv
aux adresses suivantes:
Ce guide propose d'utiliser DuckDB
à travers
plusieurs langages pour effectuer des traitements sur les fichiers
détails du recensement.
Par rapport à d'autres approches, DuckDB
a été choisi pour son efficacité ainsi que pour son universalité.
Antoine Palazzolo, Lino Galiana