Données de formation du modèle "Romans"
timohear opened this issue · 7 comments
Hello,
Merci de ton projet :-). Est-ce que le dataset que tu as utilisé pour former les modèle "romans" est disponible? Si ce n'est pas le cas pourrais-tu décrire un peu comment tu l'as constitué, sa taille approximative et le temps de formation?
En te remerciant
Hello,
Merci de ton projet :-). Est-ce que le dataset que tu as utilisé pour former les modèle "romans" est disponible? Si ce n'est pas le cas pourrais-tu décrire un peu comment tu l'as constitué, sa taille approximative et le temps de formation?
En te remerciant
Bonsoir,
J'ai récupéré les livres ici sur le site Bibebook sous le format pdf (c'est aussi possible de le faire en epub je pense).
Je n'ai plus les scripts bash utilisés, mais il y en avait un pour convertir tous les pdf en txt, un autre pour enlever toutes les lignes inutiles du genre le header et le footer de chaque livre ou les éléments mal convertis et un dernier script pour rajouter à chaque texte un token <|startoftext|> au début et <|endoftext|> à la fin et regrouper tous les fichiers textes dans un seul fichier texte de +1Go
problème, le modèle small était pas assez puissant pour 1Go de texte, j'ai eu des problèmes de mémoire, du coup j'ai coupé le fichier en plusieurs parties, et finetuné sur chaque partie une par une en reprenant le modèle précédent
du coup une bonne journée en ayant fait l'erreur de ne pas faire de copie des .txt après s'être amusé avec mv
et rm
+
je viens de voir votre tweet @timohear , c'est vrai qu'il manque de modèle de type GPT-2 dans d'autres langues que le français. Il en existe un en allemand http://zamia-speech.org/brain/2019/11/20/384M-German-GPT-2-Model-Finished.html
le plus compliqué c'est pas d'entraîner gpt-2 en français from scratch, mais de se faire chier à pondre un corpus géant en français comme celui utilisé par OpenAI (surtout que bon scraper Reddit c'est pas très légal) et d'avoir la puissance de calcul nécessaire car c'est pas avec une 1080 que ça va se faire lol
après il y a aussi CamemBERT qui est bien pour de la classification sur du français mais les résultats sont pas top pour de la génération de texte
un point de départ serait de partir du corpus de @pjox https://traces1.inria.fr/oscar/fr/
Merci, je ne savais pas pour le modèle allemand. Merci aussi des explications. Le corpus Oscar est super.
Y avait-il un avantage à passer par Bibebook plutôt que projet que sur Projet Gutenberg (https://www.gutenberg.org/browse/languages/fr) où les livres sont déjà en txt utf-8?
C'est certain que ce projet va nécessiter une tonne de puissance GPU. J'essaie de voir dans quelle mesure partir des versions anglaises est un gain par rapport à partir "from scratch". Et aussi potentiellement de partir sur du DistillGPT2.
j'avais essayé le package pip du projet Gutenberg mais trop d'erreurs j'ai laissé tomber, mais oui vu que c'est déjà en txt, ça a pas l'air trop compliqué de scraper tous les livres sur la page
Hello !
Je vous déconseille (pour l'instant) d'utiliser OSCAR pour la génération du texte, surtout parce que le corpus n'est pas filtré, donc c'est sûr que GPT-2 va reproduire pas mal du contenu indésirable dans OSCAR. L'autre problème du corpus c'est qu'il est mélangé par phrases donc c'est pas idéal pour entraîner GPT-2. On a une version non mélangé d'OSCAR que je peux vous partager sous les conditions suivantes :
- Ne pas redistribuer le corpus.
- Rendre OpenSource tous les modèles dérivés de cette version d'OSCAR non mélangé.
Sinon, je essaie toujours de trouver une façon légal de partager cette version d'OSCAR d'une façon plus ouverte, et bien sûr, on travaille sur une deuxième version du corpus encore plus grande.
Hello !
Je vous déconseille (pour l'instant) d'utiliser OSCAR pour la génération du texte, surtout parce que le corpus n'est pas filtré, donc c'est sûr que GPT-2 va reproduire pas mal du contenu indésirable dans OSCAR. L'autre problème du corpus c'est qu'il est mélangé par phrases donc c'est pas idéal pour entraîner GPT-2. On a une version non mélangé d'OSCAR que je peux vous partager sous les conditions suivantes :
- Ne pas redistribuer le corpus.
- Rendre OpenSource tous les modèles dérivés de cette version d'OSCAR non mélangé.
Sinon, je essaie toujours de trouver une façon légal de partager cette version d'OSCAR d'une façon plus ouverte, et bien sûr, on travaille sur une deuxième version du corpus encore plus grande.
merci pour ces précisions @pjox, je vous envoie un mail 😄