中文事件数据的预处理

Question

xxllp opened this issue 3 years ago · 15 comments

是否有中文duee 这些数据上处理成训练数据的代码

Answer 1 · 2022-06-23T09:56:48.000Z

我还有个疑问这个模型是否可以能生成一些不在文本里面的结果

Answer 2 · 2022-06-24T08:32:02.000Z

我还有个疑问这个模型是否可以能生成一些不在文本里面的结果

可以的，但是应该要求训练集中也有不在文本里面的文本块

Answer 3 · 2022-06-24T09:26:03.000Z

我还有个疑问这个模型是否可以能生成一些不在文本里面的结果

可以的，但是应该要求训练集中也有不在文本里面的文本块

这样怎么标span的起始结束位置呢还是代码哪里需要改下

Answer 4 · 2022-06-24T09:31:54.000Z

这个得看你的需求是什么，为什么要生成不在文本里面的结果？

Answer 5 · 2022-06-24T10:01:37.000Z

这个得看你的需求是什么，为什么要生成不在文本里面的结果？

主要是我直接抽取里面的文本后面还需要后处理但是想直接出来结果，新的结果类似是在原始文本上面做了一些增删改的操作

Answer 6 · 2022-06-24T10:18:49.000Z

我这边某个数据集最终的预测结果里面空占比有点大这种是因为啥原因导致的~~~

Answer 7 · 2022-06-24T10:47:16.000Z

具体还是要看数据集。

Answer 8 · 2022-06-24T11:06:07.000Z

主要是我直接抽取里面的文本后面还需要后处理但是想直接出来结果，新的结果类似是在原始文本上面做了一些增删改的操作

可以直接拿目标端需要抽取的结果作为spot和asoc，看看seq2seq的生成效果。

Answer 9 · 2022-06-24T12:54:56.000Z

数据集文本不是很长平均300不到，数据量也有好几千了

Answer 10 · 2022-06-27T02:18:50.000Z

还有个问题：如果事件抽取的是无触法词这种，这种是否只是数据里面改下就行，比如trigger 默认为0 还是啥

Answer 11 · 2022-06-27T08:15:59.000Z

现在代码不支持直接做无触发词，因为结构需要生成trigger作为spot。

如果真的需要，可以尝试一下在输入的文本标记”伪触发词“或者在文本中添加事件类别的名称作为文本中的触发词。

Answer 12 · 2022-06-28T06:10:50.000Z

还遇到个奇怪的问题预测的数据论元有些明显过长（20字以上）这个是不是预测的offset哪里有bug

Answer 13 · 2022-06-28T11:34:35.000Z

目前仓库中的fix unk 是论文中针对英文使用的，面向中文可能不是最优的。

Answer 14 · 2022-06-29T01:33:57.000Z

soga~~~好吧我自己想下咋处理

Answer 15 · 2022-07-06T02:43:30.000Z

我还有个想法：对于一个文本是否可以用这个模型同时做两个任务，比如实体识别+关系抽取或者是关系抽取+事件抽取