ai-forever/model-zoo

В токенайзере для T5-base отсутсвует токен "Щ"

Luonic opened this issue · 2 comments

Я понимаю, что использовались для составления словаря самые популярные токены, но, возможно, в будущем стоит отдать отдельный приоритет токенам длинной в один символ, чтобы при генерации текста не получалось проблем вида:

In: Щелкунчик 42 щелкал щелбаны по щёчкам
Out: <unk> елкунчик сорок два щелкал щелбаны по щёчкам

Взамен таких токенов можно пожертвовать многосимвольными цифровыми токенами а-ля "2007", ".01.", etc.

@Luonic спасибо, что нашел! Считаем, что с нашей стороны это нужно поправить. Возьмем в работу в ближ спринты и выложим обновление, отпишусь здесь тогда.
Только "Щ", мб сразу сходу еще что-то нашлось подобное?

@TatianaShavrina других проблем не обнаружил