关于baseline的运行结果
gaobonan opened this issue · 4 comments
gaobonan commented
z814081807 commented
gaobonan commented
非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。
shexuan commented
非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。
老哥可以把更新版本的transformer正常跑的代码push上去,毕竟最终还是要用更新的嘛
shexuan commented
非常感谢,排查下来是transformers版本的原因,具体为transformers 3.0.1版本与2.1.0版本的 tokenizer.encode_plus 中truncation参数导致分词错误导致。
我看了下,两个版本的 tokenizer.encode_plus 的 trunction_strategy 默认参数都是 “longest_first”,为什么还会出现你的这个问题?