ant-louis/belgpt2

textes erotiques generés via hugginface inference API

Closed this issue · 1 comments

la generation inference API sur hugginface donne:

Mon nom est Julien et j'aime beaucoup lecher les sexes . Le premier est un peu

je ne sais pas à quel point ça pourrait être gênant

Bonjour, merci d'avoir rapporter ce souci!

Il s'avère que ~70% du texte sur lequel BelGPT-2 a été entrainé provient de pages Internet (le CommonCrawl dataset). Le souci que vous soulignez montre clairement que certaines de ces pages contiennent un vocabulaire inapproprié qui est malheureusement appris par le modèle. Il s'agit là d'un problème tristement courant lorsque la taille des données d'entrainement est très large, et je ne peux que vous recommander le papier "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?" pour une discussion approfondie sur le sujet.

En attendant, je viens de modifier l'exemple par défaut de l'API afin de ne plus tomber sur cette phrase insensée.