cauyxy/bilivideos

FastTokenizer下的乱码问题

zhangzuizui opened this issue a year ago · 1 comments

zhangzuizui commented a year ago

首先感谢作者提供的可视化工具

使用FastTokenizer时（其实也是我猜的），比如bloom直接AutoTokenizer.from_pretrained()加载进来后，在这一行：

bilivideos/attn-visual/gen.py

Line 24 in 94f9cca

raw_str = tokenizer.convert_ids_to_tokens([tid])[0]

如果使用convert_ids_to_tokens的话会解出一大堆乱码。改用tokenizer.decode能解决这个问题

cauyxy commented a year ago

好滴，周末有空可以研究一下