关于“产生了不该有的截断”

Question

关于“产生了不该有的截断”

S1s-Z opened this issue 3 years ago · 1 comments

首先感谢作者的开源代码！我在利用其他NER任务进行您的模型训练的过程中，在选择训练mrc模型，当max_seq_len设置512，自己定义的query设定的最大长度为100个字符（因此修改了processor = NERProcessor(opt.max_seq_len-103)，不知是否正确），其输出大量的'产生了不该有的截断'，请问如何理解'产生了不该有的截断'呢？会对模型的训练产生如何的影响？期待您的回答！

Answer 1 · 2021-04-16T03:31:45.000Z

首先感谢作者的开源代码！我在利用其他NER任务进行您的模型训练的过程中，在选择训练mrc模型，当max_seq_len设置512，自己定义的query设定的最大长度为100个字符（因此修改了processor = NERProcessor(opt.max_seq_len-103)，不知是否正确），其输出大量的'产生了不该有的截断'，请问如何理解'产生了不该有的截断'呢？会对模型的训练产生如何的影响？期待您的回答！

查看src/preprocess/processor.py处代码，这个含义是指doc（text）被截断了，在NER中一般text不应该被截断，可能造成实体被截断，句子语义信息不完整，在文本分类里面是可以的。