安装 PyTorch 和其他依赖库
pip install torch==1.9.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html --no-cache
pip install -r requirements.txt
- 本项目默认使用
bert-base-chinese
,可以在这里找到 - 请将
bert-base-chinese
置于src
目录同级
- 本项目需要 CBLUE 下的 CMeEE 数据集
- 请将 CBLUE 数据集放置在
data
目录下,如果没有data
目录,请新建一个(x
至此,项目目录应该类似于
- bert-base-chinese
- data
- CBLUEDatasets
- CMeEE
- src
- 复现脚本全部保存在
./src
目录下
在超算平台上可以通过 sbatch
提交任务。例如,要复现 W2NER 模型
cd src
sbatch run_cmeee_w2ner_tuned.sbatch
或者也可以使用 source run_cmeee_w2ner_tuned.sbatch
在 bash 中直接运行
ee_data
: 原ee_data.py
扩增后的模块,负责数据加载model
: 原model.py
扩增后的模块,定义模型逻辑- 其中
bert_*.py
是整合了 BERT 的完整模型 *_head.py
是不同的分类器头
- 其中
args.py
负责解析命令行参数ee_data_tests.py
是数据加载的一些测试代码logger.py
是日志工具loss_funcs.py
包含了部分自定义的损失函数metrics.py
包含了计算 F1 指标的工具类result_gen.py
包含了部分建模方式下的解码函数run_cmeee.py
是主函数所在的位置trainers.py
是对 Huggingface 的 Trainer 做了部分逻辑覆盖的 Trainer
run_cmeee_nested.sbatch
: Project 1 用,运行嵌套线性头模型run_cmeee_crf.sbatch
: Project 1 用,运行嵌套 CRF 头模型run_cmeee_globalptr.sbatch
: 运行 Global Pointer 模型run_cmeee_w2ner.sbatch
: 运行 W2NER 模型。使用默认训练超参数。run_cmeee_w2ner_tuned.sbatch
: 运行 W2NER 模型。使用原仓库配置的训练超参数。