Chinese_medical_NLP

医疗NLP领域（主要关注中文）评测数据集与论文等相关资源。

中文评测数据集

1. Yidu-S4K：医渡云结构化4K数据集

数据集描述：

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务： 1）医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。本子任务的数据集包括训练集和测试集。 2）医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据

数据集地址

度盘下载地址：https://pan.baidu.com/s/1QqYtqDwhc_S51F3SYMChBQ

提取码：flql

2.瑞金医院糖尿病数据集

数据集描述：

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率，高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”，第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

官方提供的数据只包含训练集，真正用于最终排名的测试集没有给出。

数据集地址

度盘下载地址：https://pan.baidu.com/s/1CWKblBNBqR-vs2h0xiXSdQ

提取码：0c54

3.Yidu-N7K：医渡云标准化7K数据集

数据集描述：

Yidu-N4K 数据集源自CHIP 2019 评测任务一，即“临床术语标准化任务”的数据集。临床术语标准化任务是医学统计中不可或缺的一项任务。临床上，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化（归一）要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础，研究人员才可对电子病历进行后续的统计分析。本质上，临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样，单一的匹配模型很难获得很好的效果。

数据集地址

4.中文医学问答数据集

数据集描述：

中文医药方面的问答数据集，超过10万条。

数据说明:

questions.csv：所有的问题及其内容。answers.csv ：所有问题的答案。 train_candidates.txt， dev_candidates.txt， test_candidates.txt ：将上述两个文件进行了拆分。

数据集地址

数据集github地址

5.平安医疗科技疾病问答迁移学习比赛

数据集描述：

本次比赛是chip2019中的评测任务二，由平安医疗科技主办。chip2019会议详情见链接：http://cips-chip.org.cn/evaluation 迁移学习是自然语言处理中的重要一环，其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果，从而提高模型的泛化能力。本次评测任务的主要目标是针对中文的疾病问答数据，进行病种间的迁移学习。具体而言，给定来自5个不同病种的问句对，要求判定两个句子语义是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。

数据集地址(需注册)

6.天池新冠肺炎问句匹配比赛

数据集描述：

本次大赛数据包括：脱敏之后的医疗问题数据对和标注数据。医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。数据共包含train.csv、dev.csv、test.csv三个文件，其中给参赛选手的文件包含训练集train.csv和验证集dev.csv，测试集test.csv 对参赛选手不可见。每一条数据由 Category，Query1，Query2，Label构成，分别表示问题类别、问句1、问句2、标签。Label表示问句之间的语义是否相同，若相同，标为1，若不相同，标为0。其中，训练集Label已知，验证集和测试集Label未知。示例类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部发炎是什么引起的标签:1 类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部炎症有什么症状标签:0

数据集地址(需注册)

线上第四名解决方案及代码

线上第一名解决方案及代码

7.中文医患问答对话数据

数据说明: 来自某在线求医产品的中文医患对话数据。

原始描述:The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances. The data is continuously growing and more dialogues will be added. The raw dialogues are from haodf.com. All copyrights of the data belong to haodf.com.

项目地址

度盘下载地址: https://pan.baidu.com/s/1ZwzNgvAAMQk4klerTspsoA

提取码: lbo4

8.中文医学问答数据

数据说明: 包含六个科室的医学问答数据，来源不明。

项目地址

中文医学知识图谱

CMeKG

地址

简介：CMeKG（Chinese Medical Knowledge Graph）是利用自然语言处理与文本挖掘技术，基于大规模医学文本数据，以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范与医学百科等医学文本信息。CMeKG 1.0包括：6310种疾病、19853种药物（西药、中成药、中草药）、1237种诊疗技术及设备的结构化知识描述，涵盖疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证等30余种常见关系类型，CMeKG描述的概念关系实例及属性三元组达100余万。

英文数据集

PubMedQA: A Dataset for Biomedical Research Question Answering

数据集描述：基于Pubmed提取的医学问答数据集。PubMedQA has 1k expert-annotated, 61.2k unlabeled and 211.3k artificially gen- erated QA instances.

xhyandwyy/Chinese_medical_NLP

Chinese_medical_NLP

中文评测数据集

1. Yidu-S4K：医渡云结构化4K数据集

2.瑞金医院糖尿病数据集

3.Yidu-N7K：医渡云标准化7K数据集

4.中文医学问答数据集

5.平安医疗科技疾病问答迁移学习比赛

6.天池新冠肺炎问句匹配比赛

7.中文医患问答对话数据

8.中文医学问答数据

中文医学知识图谱

CMeKG

英文数据集

PubMedQA: A Dataset for Biomedical Research Question Answering

相关论文

1.医疗领域预训练embedding

Bio-bert

sci-bert

clinical-bert

clinical-bert(另一团队的版本)

BEHRT

2.综述类文章

nature medicine发表的综述

3.电子病历相关文章

Transfer Learning from Medical Literature for Section Prediction in Electronic Health Records

4.医学关系抽取

Leveraging Dependency Forest for Neural Medical Relation Extraction

5.医学知识图谱

Learning a Health Knowledge Graph from Electronic Medical Records

6.辅助诊断

Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence

7.ACL2020医学领域相关论文列表

A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization

Biomedical Entity Representations with Synonym Marginalization

Document Translation vs. Query Translation for Cross-Lingual Information Retrieval in the Medical Domain

MIE: A Medical Information Extractor towards Medical Dialogues

Rationalizing Medical Relation Prediction from Corpus-level Statistics

8.医疗实体Linking（标准化）

Medical Entity Linking using Triplet Network

A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization

中文医疗领域语料

医学教材+培训考试

哈工大《大词林》开放75万核心实体词及相关概念、关系列表（包含中药/医院/生物 类别）

医学embedding

开源英文医学embedding

开源工具包

分词工具

PKUSEG

工业级产品解决方案

blog分享

友情链接

哈工大《大词林》开放75万核心实体词及相关概念、关系列表（包含中药/医院/生物类别）