[Projet] Définir une stratégie d'utilisation des fichiers externes

Question

[Projet] Définir une stratégie d'utilisation des fichiers externes

Mind-the-Cap opened this issue 2 years ago · 5 comments

Il faut que l'on décide d'une stratégie d'utilisation de fichiers externes dans notre code:

Inclure systématiquement les fichiers nécessaires pour faire tourner les fonctions et les exemples ?

Définir des jeux de données "de base" et d'autres qu'on laisse l'utilisateur gérer ?

Intégrer ou non la mise à jour des jeux de données (millésimes du recensement INSEE par exemple) ?

@FlxPo dans #22

Personnellement, je suis en faveur d'inclure systématiquement les fichiers nécessaires :

plutôt directement dans Github pour les fichiers légers
en utilisant data.gouv.fr pour les fichiers lourds de l'INSEE

Je ne vois pas de cas pour l'instant où il serait intéressant que l'utilisateur ait des données à gérer.
Je suis en faveur d'avoir les différentes versions, grâce à un dictionnaire qui enregistrerait les différents liens. Mais dans l'immédiat, on peut rester sur les dernières données, on n'a pas de gros cas d'usage pour ça (dans le futur je vois la reproductibilité notamment, ou la comparaison entre années).

Answer 1 · 2023-02-02T17:19:27.000Z

D'accord avec ta règle, on fixe une limite de taille de fichier pour Github ? 1 Mo, 10 Mo par exemple ?
Il faut aussi anticiper l'utilisation du package après une installation pip : bien définir les fichiers nécessaires au code et ceux qui sont utiles uniquement pour les exemples et tests.

Answer 2 · 2023-02-02T18:41:51.000Z

Je dirais 50 Mo, qui est la limite d'avertissement de Github.
J'imagine que les fichiers nécessaires au code doivent être dans mobility/data et ceux dans les exemples dans le répertoire dédié. Comme ça, à terme on pourra scinder si ça devient trop volumineux (avec un repo mobility-examples)

Answer 3 · 2023-02-06T17:06:53.000Z

J'ajoute une stratégie supplémentaire :

Utiliser des API publiques quand c'est possible, avant d'héberger les fichiers sur data gouv.

Answer 4 · 2023-02-16T10:46:47.000Z

Intégrer la stratégie décidée dans la documentation
Lister les sources de données utilisées dans la doc
Améliorer les métadonnées sur data.gouv.fr

Answer 5 · 2023-04-21T09:45:33.000Z

Ajouté dans la documentation avec #65