aquadzn/gpt2-french

Utiliser les modèles déjà fine-tunés pour de la génération de texte

manueltonneau opened this issue · 6 comments

Merci pour ce projet très intéressant. Je souhaite si possible utiliser les modèles déjà fine-tunés pour créer des bases de données de textes composés par GPT-2 en francais. Je vois sur le repo un notebook pour fine-tuner GPT-2 mais pas de ressources (à part le site, qui me semble down) pour produire directement du texte. Ai-je raté qqch?

Par ailleurs, si j'ai bien compris, tu as un modèle par base de données d'entrainement (tweets, rapports parlementaires, etc..). Est-ce que c'est parce que c'était trop coûteux sur le plan computationnel de fine-tuner directement sur toutes ces sources en même temps? Même question pour le type de modèle: il me semble que GPT2-XL est maintenant dispo sur le repo de hugging face, pourquoi ne pas l'utiliser?

Merci beaucoup d'avance pour tes réponses et joyeux noël!

Pour les modèles pre-trained, je viens de trouver les releases, my bad!

Salut

Merci pour ce projet très intéressant. Je souhaite si possible utiliser les modèles déjà fine-tunés pour créer des bases de données de textes composés par GPT-2 en francais. Je vois sur le repo un notebook pour fine-tuner GPT-2 mais pas de ressources (à part le site, qui me semble down) pour produire directement du texte. Ai-je raté qqch?

Pour ça avec GPT-2-Simple et Transformers d'Huggingface tu as un paramètre nsamples pour choisir le nombre de texte à générer, tu pourrais faire un script vite fait pour append chaque texte généré dans un CSV

Par ailleurs, si j'ai bien compris, tu as un modèle par base de données d'entrainement (tweets, rapports parlementaires, etc..). Est-ce que c'est parce que c'était trop coûteux sur le plan computationnel de fine-tuner directement sur toutes ces sources en même temps? Même question pour le type de modèle: il me semble que GPT2-XL est maintenant dispo sur le repo de hugging face, pourquoi ne pas l'utiliser?

J'ai utilisé Colab et Kaggle pour entraîner du coup ce n'était pas payant.
En regroupant les différents modèles en un seul, je n'aurai pas pu vraiment choisir quel type de texte générer.
Les grosses versions de GPT-2 sont trop coûteuses en mémoire pour un simple conteneur du service CloudRun de GCP. Avec GPT-2-Simpkd en tout cas. Pas tester avec Transformers.

Sinon à propos de ça j'ai fait vite fait un packagé qui permet de déployer rapidement une app web de génération de texte avec un modèle issu de Transformers et j'aimerai bien avoir un retour 😀
https://github.com/aquadzn/deploy-transformers

Merci pour ta réponse rapide :)

Pour ça avec GPT-2-Simple et Transformers d'Huggingface tu as un paramètre nsamples pour choisir le nombre de texte à générer, tu pourrais faire un script vite fait pour append chaque texte généré dans un CSV

Bien vu, je pensais faire ca. Dans les scripts que je trouve jusque la, ils importent des modèles dans GCP. Je vois pas encore de script qui utilise direct un modèle stocké en local mais je ne devrais pas tarder à tomber dessus.

J'ai utilisé Colab et Kaggle pour entraîner du coup ce n'était pas payant.
En regroupant les différents modèles en un seul, je n'aurai pas pu vraiment choisir quel type de texte générer.

Peut être qu'il faudrait utiliser CTRL alors (https://arxiv.org/pdf/1909.05858.pdf)? Avec des control codes, tu peux controler le type de texte à géńerer. J'avais fait un notebook pour fine-tuner CTRL mais j'ai eu des erreurs et mon issue sur leur repo est restée sans réponse. Si t'as un moment pour checker le colab notebook et essayer par toi même, avec grand plaisir :)

Sinon à propos de ça j'ai fait vite fait un packagé qui permet de déployer rapidement une app web de génération de texte avec un modèle issu de Transformers et j'aimerai bien avoir un retour grinning
https://github.com/aquadzn/deploy-transformers

Super projet encore une fois, je termine mes tests de génération mais un des objectifs pourrait etre apres de faire une webapp avec, je checkerai ca, merci pour la ref!

Bien vu, je pensais faire ca. Dans les scripts que je trouve jusque la, ils importent des modèles dans GCP. Je vois pas encore de script qui utilise direct un modèle stocké en local mais je ne devrais pas tarder à tomber dessus.

J'ai réussi, c'était assez facile à faire :)

Une question: est-ce que tu aurais sous la main tes bases de données d'entrainement, notamment les tweets de Macron? Si oui, accepterais-tu de me les partager?

Je ne pense plus mais j'avais utilisé https://github.com/tweepy/tweepy qui est super utile pour Twitter

Ok merci pour toutes ces infos :)