getalp/Flaubert

Filling masks

xiaoouwang opened this issue · 4 comments

Bonjour bonjour ! Merci d'avoir partagé le modèle !

Dans Camembert il est assez facile de deviner un mot à partir du contexte, y a-t-il un working example dans Flaubert ?

Merci d'avance !

from fairseq.models.roberta import CamembertModel
camembert = CamembertModel.from_pretrained('./camembert-base/')
camembert.eval()
masked_line = 'Le camembert est <mask> :)'
camembert.fill_mask(masked_line, topk=3)
# [('Le camembert est délicieux :)', 0.4909118115901947, ' délicieux'),
]#  ('Le camembert est excellent :)', 0.10556942224502563, ' excellent'),
#  ('Le camembert est succulent :)', 0.03453322499990463, ' succulent')]

Bonjour,

Merci pour votre intérêt à Flaubert ! Et désolé pour le retard.

Vous pouvez utiliser transformers pour cette tâche comme suivant :

from transformers import pipeline
nlp_fill = pipeline('fill-mask', model="flaubert/flaubert_base_cased", topk=3)
nlp_fill("Paris est la <special1> de la France.")

Résultat :

[{'sequence': '<s>Paris est la capitale de la France. </s>', 'score': 0.38478967547416687, 'token': 1720, 'token_str': 'capitale</w>'}, 
{'sequence': '<s>Paris est la propriété de la France. </s>', 'score': 0.021579978987574577, 'token': 2068, 'token_str': 'propriété</w>'}, 
{'sequence': '<s>Paris est la politique de la France. </s>', 'score': 0.016734756529331207, 'token': 223, 'token_str': 'politique</w>'}]

Bonjour,

Merci pour votre intérêt à Flaubert ! Et désolé pour le retard.

Vous pouvez utiliser transformers pour cette tâche comme suivant :

from transformers import pipeline
nlp_fill = pipeline('fill-mask', model="flaubert/flaubert_base_cased", topk=3)
nlp_fill("Paris est la <special1> de la France.")

Résultat :

[{'sequence': '<s>Paris est la capitale de la France. </s>', 'score': 0.38478967547416687, 'token': 1720, 'token_str': 'capitale</w>'}, 
{'sequence': '<s>Paris est la propriété de la France. </s>', 'score': 0.021579978987574577, 'token': 2068, 'token_str': 'propriété</w>'}, 
{'sequence': '<s>Paris est la politique de la France. </s>', 'score': 0.016734756529331207, 'token': 223, 'token_str': 'politique</w>'}]

Merci de votre réponse ! Je clos le issue :D

Juste par précaution s'il y a d'autres personnes qui tombent sur cet issue, l'option topk est maintenant top_k

Bonne idée de le préciser. Merci