/medbert

本项目开源硕士毕业论文“BERT模型在中文临床自然语言处理中的 应用探索与研究”相关模型

Primary LanguagePythonApache License 2.0Apache-2.0

medbert

本项目开源硕士毕业论文“BERT模型在中文临床自然语言处理中的应用探索与研究”相关模型

评估基准

构建了中文电子病历命名实体识别数据集(CEMRNER)、中文医学文本命名实体识别数据集(CMTNER)、

中文医学问句-问句识别数据集(CMedQQ)和中文临床文本分类数据集(CCTC)。

数据集 训练集 验证集 测试集 任务类型 语料来源
CEMRNER 965 138 276 命名实体识别 医渡云
CMTNER 14000 2000 4000 命名实体识别 CHIP2020
CMedQQ 14000 2000 4000 句对识别 平安医疗
CCTC 26837 3834 7669 句子分类 CHIP2019

开源模型

在6.5亿字符中文临床自然语言文本语料上基于BERT模型和Albert模型预训练获得了MedBERT和MedAlbert模型。

性能表现

在同等实验环境,相同训练参数和脚本下,各模型的性能表现

模型 CEMRNER CMTNER CMedQQ CCTC
BERT 81.17% 65.67% 87.77% 81.62%
MC-BERT 80.93% 66.15% 89.04% 80.65%
PCL-BERT 81.58% 67.02% 88.81% 80.27%
MedBERT(ours) 82.29% 66.49% 88.32% 81.77%
MedBERT-wwm (ours) 82.60% 67.11% 88.02% 81.72%
MedBERT-kd (ours) 82.58% 67.27% 89.34% 80.73%
- - - - -
Albert 79.98% 62.42% 86.81% 79.83%
MedAlbert (ours) 81.03% 63.81% 87.56% 80.05%
MedAlbert-wwm(ours) 81.28% 64.12% 87.71% 80.46%

引用格式

XXX,XXX,XXX.BERT模型在中文临床自然语言处理中的应用探索与研究[EB/OL].https://github.com/trueto/medbert, 2021-03.