- python==3.7.11
- torch==1.9.0
- transformers==4.11.3
- pytorch-lightning==1.4.7
- tqdm==4.62.3
- numpy==1.21.0
- scikit-learn==0.24.2
- 原始数据放在
data
文件夹; - 下载
chinese-roberta-wwm-ext-large
模型,已发送到邮箱,与开源的有些许差别,vocab.txt
添加了一些专业的词汇,替换了[unused1]-[unused36]
; - 需要GPU(v100 32G)环境,训练ner模型,大概需要3小时。本地文件夹下运行
global_pointer.py
,将生成数据data/labels.json
、data/train.json
、data/testB_ner.txt
、 五折交叉的模型global_pointer_model_1
、global_pointer_model_2
、global_pointer_model_3
、global_pointer_model_4
、global_pointer_model_5
; - 需要GPU(v100 32G)环境,训练relation模型,大概需要12小时。本地文件夹下运行
relation.py
,将生成数据data_relation/train.json
、data_relation/submit_B.txt
、 五折交叉的模型relation_model_1
、relation_model_2
、relation_model_3
、relation_model_4
、relation_model_5
; - 第4步生成的
data_relation/submit_B.txt
为最终的结果;
- 已经设置seed,按理说可以完全复现;