aquadzn/gpt2-french

Quelques explications sur la constitution du dataset & son entraînement?

Conobi opened this issue · 3 comments

Hello, et merci bien pour ce projet!
J'aimerais savoir comment constituer un bon dataset, ou tout du moins si il y a certaines pratiques à effectuer pour rendre l'entraînement le plus efficace possible avec un dataset propre!
Par ailleurs il y a-t-il une quantité de données optimale pour obtenir des résultats convaincants pour disons 5000 steps.
Merci! :)

@Donokami Pour le dataset tu peux tout mettre dans un seul .txt
Si tu as juste un seul texte, tu peux manuellement ajouter les tokens <|startoftext|> au début et <|endoftext|> à la fin du texte.
Avec plusieurs textes tu peux faire une boucle rapide genre

echo <|startoftext|> $(cat $i)<|endoftext|>"

Ou bien mettre les différents textes dans un csv et il sera automatiquement parsé par gpt-2-simple.

Pour fine-tuner, avec le modèle medium, gpt-2-simple commence à déconner avec un .txt de +2Go. Y'a une fonction pour encoder le dataset mais ce que tu peux faire pour les gros fichiers, tu split en plusieurs, et tu fais plusieurs run en reprennant le modèle précédent

Merci beaucoup!
Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)

Merci beaucoup!
Peut-être pourrait-on ajouter ces infos dans le readme ou sur le notebook? :)

Tu peux faire une PR si tu veux 😉