陆老师,请教下能具体说下,数据预处理的过程吗?
gxp0513 opened this issue · 3 comments
gxp0513 commented
我看说是用[dygiepp] and [oneie v0.4.7] 这两个项目,具体如何实现能介绍下吗?万分感谢
luyaojie commented
处理的步骤如下:
Dygiepp
使用的是Dygiepp默认setting。
生成路径:dygiepp/data/ace-event/processed-data/default-settings/json/
生成脚本:python ./scripts/data/ace-event/parse_ace_event.py default-settings
参考原作者给的环境,spacy==2.0.18,这对分句可能有影响。
当时使用的版本如下,不确定是否有影响。
commit edec203b73d32824f14e03b5510e020130b69a7f (HEAD -> master)
Author: dwadden <dwadden@cs.washington.edu>
Date: Sun Oct 11 15:02:33 2020 -0700
Add `dataset` argument when creating new doc-key.
OneIE
ACE_DATA_FOLDER=<ACE_PATH>
mkdir -p data/ace05-EN
python preprocessing/process_ace.py -i ${ACE_DATA_FOLDER}/data -o data/ace05-EN -s resource/splits/ACE05-E -b bert-large-cased -l english
wc -l data/ace05-EN/*
gxp0513 commented
万分感谢!
chensming commented
万分感谢!
请问是先用Dygiepp处理,然后用OneIE工具处理吗,最开始下载的ACE2005数据集放在哪个目录下呢?(提前感谢~