ValueError: cannot copy sequence with size 37 to array axis with dimension 36

Question

ValueError: cannot copy sequence with size 37 to array axis with dimension 36

tianke0711 opened this issue 3 years ago · 11 comments

你好我换成BIEOS数据标签后，test数据没有标签。我每个字添加一个临时标签都是O，
然后允许模型，出现了以下错误，请指教！

File "/NER/CLUENER2020/BERT-LSTM-CRF/train.py", line 83, in evaluate
    for idx, batch_samples in enumerate(dev_loader):
  File "/opt/conda/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 560, in __next__
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "NER/CLUENER2020/BERT-LSTM-CRF/data_loader.py", line 97, in collate_fn
    batch_labels[j][:cur_tags_len] = labels[j]

Answer 1 · 2021-06-24T09:16:05.000Z

你好我换成BIEOS数据标签后，test数据没有标签。我每个字添加一个临时标签都是O，
然后允许模型，出现了以下错误，请指教！

File "/NER/CLUENER2020/BERT-LSTM-CRF/train.py", line 83, in evaluate
    for idx, batch_samples in enumerate(dev_loader):
  File "/opt/conda/lib/python3.6/site-packages/torch/utils/data/dataloader.py", line 560, in __next__
    batch = self.collate_fn([self.dataset[i] for i in indices])
  File "NER/CLUENER2020/BERT-LSTM-CRF/data_loader.py", line 97, in collate_fn
    batch_labels[j][:cur_tags_len] = labels[j]

我也出现了同样的问题，例如36是batch里的第一个数据，当后面的数据比36长时就会报错，不知道如何解决，如有思路可发邮件至76834136@qq.com

Answer 2 · 2021-06-25T01:34:28.000Z

@whyalwaysonline 还没解决，暂时放弃啦

Answer 3 · 2021-06-25T01:51:29.000Z

不好意思，这两天比较忙，下周我看一下这个问题～

Answer 4 · 2021-06-25T02:02:58.000Z

@hemingkx 谢谢麻烦啦

Answer 5 · 2021-06-25T02:29:23.000Z

不好意思，这两天比较忙，下周我看一下这个问题～

sentences.append((self.tokenizer.convert_tokens_to_ids(words), token_start_idxs))
给大家一个参考，问题应该出在这句话中的self.tokenizer.convert_tokens_to_ids(words)，我测试了一下，不会报错的句子该元素的size应该是大于token_start_idxs，而对于报错的句子这个值就小了，导致之后size的不匹配。

Answer 6 · 2021-06-25T08:26:25.000Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

Answer 7 · 2021-12-06T07:51:48.000Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

请问那应该如何解决呢？

Answer 8 · 2021-12-07T01:26:30.000Z

发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配

请问那应该如何解决呢？

解决了，把数据中的空格去掉即可

Answer 9 · 2022-04-22T13:53:06.000Z

@whyalwaysonline> 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配
请问去掉空格了还是有这个问题怎么办

Answer 10 · 2022-04-22T15:57:13.000Z

😂不知道了

…

---Original--- From: ***@***.***> Date: Fri, Apr 22, 2022 21:53 PM To: ***@***.***>; Cc: ***@***.******@***.***>; Subject: Re: [hemingkx/CLUENER2020] ValueError: cannot copy sequence with size 37 to array axis with dimension 36 (#3) 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配请问去掉空格了还是有这个问题怎么办 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

Answer 11 · 2024-03-12T01:42:23.000Z

@whyalwaysonline> 发现问题所在了，当数据中包含英文单词时比如“Air Jordan”，在token的时候就会把空格略去，导致size不匹配请问去掉空格了还是有这个问题怎么办

最简单的方法是将空格替换成下划线“_”。仅去掉空格而不去掉相应的标签，会导致对应错误。我的训练数据也是混合了中英文的，解决办法就是将空格替换成下划线，模型最终效果非常好。