universal-ie/UIE

中文事件数据的预处理

xxllp opened this issue · 15 comments

xxllp commented

是否有中文duee 这些数据上处理成训练数据的代码

xxllp commented

我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果

我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果

可以的,但是应该要求训练集中也有 不在文本里面的文本块

xxllp commented

我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果

可以的,但是应该要求训练集中也有 不在文本里面的文本块

这样怎么标span的起始结束位置呢 还是代码哪里需要改下

这个得看你的需求是什么,为什么要生成不在文本里面的结果?

xxllp commented

这个得看你的需求是什么,为什么要生成不在文本里面的结果?

主要是我直接抽取里面的文本后面还需要后处理 但是想直接出来结果 ,新的结果类似是在原始文本上面做了一些增删改的操作

xxllp commented

我这边某个数据集 最终的预测结果里面空占比有点大 这种是因为啥原因导致的~~~

  1. 输入文本太长导致没有信息输入到模型中。可以尝试扩大source的max length
  2. 有可能是数据太少,复例太多导致学骗了,可以尝试采样复例比例。

具体还是要看数据集。

主要是我直接抽取里面的文本后面还需要后处理 但是想直接出来结果 ,新的结果类似是在原始文本上面做了一些增删改的操作

可以直接拿目标端需要抽取的结果作为spot和asoc,看看seq2seq的生成效果。

xxllp commented

数据集文本不是很长 平均300不到,数据量也有好几千了

xxllp commented

还有个问题:如果事件抽取的是无触法词这种,这种是否只是数据里面改下就行,比如trigger 默认为0 还是啥

现在代码不支持直接做无触发词,因为结构需要生成trigger作为spot。

如果真的需要,可以尝试一下在输入的文本标记”伪触发词“或者在文本中添加事件类别的名称作为文本中的触发词。

xxllp commented

还遇到个奇怪的问题 预测的数据论元有些明显过长(20字以上)这个是不是预测的offset哪里有bug

目前仓库中的fix unk 是论文中针对英文使用的,面向中文可能不是最优的。

xxllp commented

soga~~~好吧我自己想下咋处理

xxllp commented

我还有个想法:对于一个文本 是否可以用这个模型同时做 两个任务,比如实体识别+关系抽取 或者是关系抽取+事件抽取