数据截断问题

Question

数据截断问题

Accagain2014 opened this issue 5 years ago · 2 comments

Accagain2014 commented 5 years ago

hi, 请问在使用数据时，发现训练数据中存在，很多截断问题，有的缺少"）", 有的缺少"》", 有的直接被截断，请问对原始数据划分样本的原则是什么呢？依据"，。！"分割？还是依据字数呢？

（charles 1
{"text": "怎样做才能避免拒签？新浪出国频道邀请到美国使馆签证处的签证官江德力（charles", "label": {"government": {"美国使馆": [[19, 22]]}, "name": {"江德力": [[30, 32]], "（charles": [[33, 40]]}, "company": {"新浪": [[10, 11]]}, "position": {"签证官": [[27, 29]]}}}

《新老金融街争锋— 1
{"text": "【吴海花】：我代表北京《百姓地产》杂志感谢大家赶来参加今天《新老金融街争锋—", "label": {"book": {"《百姓地产》": [[11, 16]], "《
新老金融街争锋—": [[29, 37]]}, "name": {"【吴海花】": [[0, 4]]}}}

《伊苏1&2历代记(YsI&II 1
{"text": "系列2款新作，分别为1、2代强化移植合辑的《伊苏1&2历代记(YsI&II", "label": {"game": {"《伊苏1&2历代记(YsI&II": [[21, 36]]}}}

《最后的神迹（The 1
{"text": "由SQUAREENIX制作，预定4月9日推出的PC角色扮演游戏《最后的神迹（The", "label": {"game": {"《最后的神迹（The": [[31, 40]]}, "company": {"SQUAREENIX": [[1, 10]]}}}

Answer 1 · 2020-02-11T03:23:43.000Z

你好，数据是经过预处理把长文本分成了短文本，处理过程中可能造成了符号缺失。

Answer 2 · 2020-02-11T03:27:33.000Z

我们后面会对这种情况进行处理，您可以暂时先把这种数据删除掉，看对模型是否有影响