В токенайзере для T5-base отсутсвует токен "Щ"
Luonic opened this issue · 2 comments
Luonic commented
Я понимаю, что использовались для составления словаря самые популярные токены, но, возможно, в будущем стоит отдать отдельный приоритет токенам длинной в один символ, чтобы при генерации текста не получалось проблем вида:
In: Щелкунчик 42 щелкал щелбаны по щёчкам
Out: <unk> елкунчик сорок два щелкал щелбаны по щёчкам
Взамен таких токенов можно пожертвовать многосимвольными цифровыми токенами а-ля "2007", ".01.", etc.
TatianaShavrina commented
@Luonic спасибо, что нашел! Считаем, что с нашей стороны это нужно поправить. Возьмем в работу в ближ спринты и выложим обновление, отпишусь здесь тогда.
Только "Щ", мб сразу сходу еще что-то нашлось подобное?
Luonic commented
@TatianaShavrina других проблем не обнаружил