AI3612 知识表征与推理课程项目 CMeEE 命名实体识别

快速开始

安装 PyTorch 和其他依赖库

pip install torch==1.9.0+cu111 -f https://download.pytorch.org/whl/torch_stable.html --no-cache
pip install -r requirements.txt

至此，项目目录应该类似于

- bert-base-chinese
- data
  - CBLUEDatasets
    - CMeEE
- src

在超算平台上可以通过 sbatch 提交任务。例如，要复现 W2NER 模型

cd src
sbatch run_cmeee_w2ner_tuned.sbatch

或者也可以使用 source run_cmeee_w2ner_tuned.sbatch 在 bash 中直接运行

ee_data: 原 ee_data.py 扩增后的模块，负责数据加载
model: 原 model.py 扩增后的模块，定义模型逻辑
- 其中 bert_*.py 是整合了 BERT 的完整模型
- *_head.py 是不同的分类器头
args.py 负责解析命令行参数
ee_data_tests.py 是数据加载的一些测试代码
logger.py 是日志工具
loss_funcs.py 包含了部分自定义的损失函数
metrics.py 包含了计算 F1 指标的工具类
result_gen.py 包含了部分建模方式下的解码函数
run_cmeee.py 是主函数所在的位置
trainers.py 是对 Huggingface 的 Trainer 做了部分逻辑覆盖的 Trainer