textes erotiques generés via hugginface inference API
Closed this issue · 1 comments
la generation inference API sur hugginface donne:
Mon nom est Julien et j'aime beaucoup lecher les sexes . Le premier est un peu
je ne sais pas à quel point ça pourrait être gênant
Bonjour, merci d'avoir rapporter ce souci!
Il s'avère que ~70% du texte sur lequel BelGPT-2 a été entrainé provient de pages Internet (le CommonCrawl dataset). Le souci que vous soulignez montre clairement que certaines de ces pages contiennent un vocabulaire inapproprié qui est malheureusement appris par le modèle. Il s'agit là d'un problème tristement courant lorsque la taille des données d'entrainement est très large, et je ne peux que vous recommander le papier "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" pour une discussion approfondie sur le sujet.
En attendant, je viens de modifier l'exemple par défaut de l'API afin de ne plus tomber sur cette phrase insensée.