awesome_Chinese_medical_NLP

中文医学NLP公开资源整理：术语集/语料库/词向量/预训练模型/知识图谱/命名实体识别/QA/信息抽取/etc

Benchmark

中文医疗信息处理挑战榜CBLUE数据集 Baseline 中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是**中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。

术语集/语料库

medical-news 中文医学新闻爬虫
medical-books 中文LaTex开源医学书籍
THUOCL 清华大学thunlp组医学词汇
ICD9 ICD-9中文对应
ICD10 ICD-10中文对应
ICD11 ICD-11中文对应
OMAHA七巧板医学术语集样例数据
中文糖尿病标注数据集包含实体标注和关系标注

词向量/预训练模型

ChineseEHRBert 中文电子病历预训练Bert；用Bert测试命名实体识别，问答模型，关系提取任务
MC-BERTChineseBLUE数据集和模型
bertcner 用于命名实体识别的预训练的中文医学Bert模型
PCL-MedBERT 鹏城医疗BERT预训练模型
medbert BERT模型在中文临床自然语言处理中的应用探索与研究
Chinese-Word2vec-Medicine 中文生物医学领域词向量
SMedBERT SMedBERT
eHealth Building Chinese Biomedical Language Models via Multi-Level Text Discrimination

分词

PKUSEG PKUSEG分词工具，模型支持选择医学
cmekg医学分词工具 github cmekg医学分词
GTS 包含922句粗细两种粒度标注的中文医学分词测试集

知识图谱 / 关系提取

cMeKG github Chinese Medical Knowledge Graph
瑞金医院人工智能辅助构建知识图谱大赛糖尿病相关的学术论文以及糖尿病临床指南的实体标注和抽取实体关系任务
OMAHA知识图谱（药品适应症）开放医疗与健康联盟（Open Medical and Healthcare Alliance，OMAHA）构建的药品与药品适应证的知识图谱数据
医疗知识图谱数据医疗知识图谱数据（ownthink）
病人事件图谱数据集病人事件图谱是一种新的基于RDF的医疗观察性数据表示模型，可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。使用三家上海三甲医院的电子病历数据，构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。
中文症状库这是一个包含症状实体和症状相关三元组的数据集。中文症状库的数据来自8个主流的健康咨询网站、3个中文百科网站和电子病历。它还包含了中文症状与UMLS中概念的链接结果。
中医医案知识图谱从医案中抽取临床知识构建知识图谱，帮助用户了解中医特色疗法，以及疾病（如“慢性胃炎”）的临床表现、相关疗法、相关养生保健方法等
herbnet 面向中药研究，根据中药领域模型的特点，构建了一个包括中医疾病，方剂，中药，中药化学成分，药理作用，中药实验，化学实验方法在内的中药本体。进而，基于本体实现了一系列数据库的集成，从而构建了一个中药知识图谱。
CHIP2020 中文医学文本实体关系抽取
CCKS2020 新冠知识图谱构建与问答
cmekg医学关系提取工具 cmekg医学关系提取

命名实体识别

CCKS2017 面向中文电子病历的医疗实体识别及属性抽取数据集
CCKS2018 面向中文电子病历的医疗实体识别及属性抽取数据集
CCKS2019 数据下载面向中文电子病历的医疗实体识别及属性抽取数据集
CHIP2020 中文医学文本命名实体识别
CHIP2020 中药说明书实体识别
CCKS2020 面向中文电子病历的医疗实体及事件抽取
cmekg医学ner工具 cmekg医学ner
CCKS2021 面向中文电子病历的医疗实体及事件抽取

QA

CCIR2019 CCIR 2019 基于电子病历的数据查询类问答
cMedQA 中文医学QA数据集
cMedQA2 中文医学QA数据集
CMID 中文医学QA意图理解数据集
KGQA 基于医药知识图谱的智能问答系统
chatbot-base-on-Knowledge-Graph 使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统
中文医疗对话数据集 Chinese medical dialogue data 中文医疗对话数据集
webMedQA webMedQA
MedDialog The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances.
CHIP2020 中医文献问题生成
NLPEC A Medical Multi-Choice Question Dataset for the National Licensed Pharmacist Examination in China
CCKS2021 蕴含实体的中文医疗对话生成
IMCS21 CBLUE@Tianchi 中医疗对话数据集 IMCS21

术语标准化

CHIP2019 临床术语标准化任务:医渡云标准化7K数据集
CHIP2020 临床术语标准化任务

相似句对判断

“公益AI之星”挑战赛-新冠疫情相似句对判定大赛比赛整理近万条真实语境下疫情相关的肺炎、支原体肺炎、支气管炎、上呼吸道感染、肺结核、哮喘、胸膜炎、肺气肿、感冒、咳血等患者提问句对，要求选手通过自然语言处理技术识别相似的患者问题。

文本分类

CHIP2019临床试验筛选标准短文本分类

其他

CHIP2018 针对中文的真实患者健康咨询语料，进行问句意图匹配
CHIP2019 平安医疗科技疾病问答迁移学习比赛
CCLUE 中文临床自然语言处理算法评估基准
CCKS2021 面向中文医疗科普知识的内容理解

Cloudless/awesome_Chinese_medical_NLP

awesome_Chinese_medical_NLP

Benchmark

术语集/语料库

词向量/预训练模型

分词

知识图谱 / 关系提取

命名实体识别

QA

术语标准化

相似句对判断

文本分类

其他