cauyxy/bilivideos

FastTokenizer下的乱码问题

zhangzuizui opened this issue · 1 comments

首先感谢作者提供的可视化工具

使用FastTokenizer时(其实也是我猜的),比如bloom直接AutoTokenizer.from_pretrained()加载进来后,在这一行:

raw_str = tokenizer.convert_ids_to_tokens([tid])[0]
如果使用convert_ids_to_tokens的话会解出一大堆乱码。改用tokenizer.decode能解决这个问题

cauyxy commented

好滴,周末有空可以研究一下