在CMeEE数据上报错
nlper01 opened this issue · 6 comments
nlper01 commented
ljynlp commented
应该是处理完后句子长度太长了,超过了设定的1000导致报错。如果句子里面英文单词过多的话不建议把单词拆成字母,不然句子很可能过长导致程序无法运行。
FalAnge1217 commented
应该是处理完后句子长度太长了,超过了设定的1000导致报错。如果句子里面英文单词过多的话不建议把单词拆成字母,不然句子很可能过长导致程序无法运行。
好的,我试试吧英文句子删掉试试。另外,这个1000可以修改吗?我尝试修改了这里的1000
dis2idx = np.zeros((1000), dtype='int64')
还是一样的错误
ljynlp commented
即使这里修改了,还是会超出BERT的512个token的限制,同样会报错,最好直接将超出长度的句子处理掉。
FalAnge1217 commented
即使这里修改了,还是会超出BERT的512个token的限制,同样会报错,最好直接将超出长度的句子处理掉。
好的,谢谢
FalAnge1217 commented
ljynlp commented
可能是你数据处理的有问题,最好查验一下每个样本中的实体index与对应文本中的内容是否一致。