中文事件数据的预处理
xxllp opened this issue · 15 comments
是否有中文duee 这些数据上处理成训练数据的代码
我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果
我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果
可以的,但是应该要求训练集中也有 不在文本里面的文本块
我还有个疑问 这个模型是否可以能生成一些不在文本里面的结果
可以的,但是应该要求训练集中也有 不在文本里面的文本块
这样怎么标span的起始结束位置呢 还是代码哪里需要改下
这个得看你的需求是什么,为什么要生成不在文本里面的结果?
这个得看你的需求是什么,为什么要生成不在文本里面的结果?
主要是我直接抽取里面的文本后面还需要后处理 但是想直接出来结果 ,新的结果类似是在原始文本上面做了一些增删改的操作
我这边某个数据集 最终的预测结果里面空占比有点大 这种是因为啥原因导致的~~~
- 输入文本太长导致没有信息输入到模型中。可以尝试扩大source的max length
- 有可能是数据太少,复例太多导致学骗了,可以尝试采样复例比例。
具体还是要看数据集。
主要是我直接抽取里面的文本后面还需要后处理 但是想直接出来结果 ,新的结果类似是在原始文本上面做了一些增删改的操作
可以直接拿目标端需要抽取的结果作为spot和asoc,看看seq2seq的生成效果。
数据集文本不是很长 平均300不到,数据量也有好几千了
还有个问题:如果事件抽取的是无触法词这种,这种是否只是数据里面改下就行,比如trigger 默认为0 还是啥
现在代码不支持直接做无触发词,因为结构需要生成trigger作为spot。
如果真的需要,可以尝试一下在输入的文本标记”伪触发词“或者在文本中添加事件类别的名称作为文本中的触发词。
还遇到个奇怪的问题 预测的数据论元有些明显过长(20字以上)这个是不是预测的offset哪里有bug
目前仓库中的fix unk 是论文中针对英文使用的,面向中文可能不是最优的。
soga~~~好吧我自己想下咋处理
我还有个想法:对于一个文本 是否可以用这个模型同时做 两个任务,比如实体识别+关系抽取 或者是关系抽取+事件抽取