Chinese_medical_NLP

医疗NLP领域（主要关注中文）评测数据集与论文等相关资源。

Chinese_medical_NLP

评测及比赛更新

说明: 这部分从2021.2.20开始更新。添加当时还未截止的中英文医疗相关的NLP评测或比赛。

MEDIQA-2021

来源： NAACL 2021 workshop

Introduction

MEDIQA 2021 tackles three summarization tasks in the medical domain: consumer health question summarization, multi-answer summarization, and radiology report summarization. In this shared task, we will also explore the use of different evaluation metrics for summarization.

MEDIQA 2021 will be organized at the NAACL-BioNLP 2021 workshop.

BioNLP Workshop

MEDIQA评测地址

ICLR-2021-医疗对话生成与自动诊断国际竞赛

来源: ICLR 2021 workshop

本次竞赛以自动医疗诊断对话系统的开发为主题，目前设置了两大赛道：医疗对话生成赛道和自动医疗诊断赛道。

竞赛官方地址

中文医疗信息处理挑战榜CBLUE数据集

评测介绍:

中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是**中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。评测长期开放。

CBLUE 1.0是由CHIP会议往届的学术评测比赛和阿里夸克医疗搜索业务的数据集组成，包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

CBLUE评测官方地址

**计算语言学大会CCL-2021智能医疗对话诊疗评测任务

**计算语言学大会（CCL 2021）发布5项技术评测任务，其中包含“智能医疗对话诊疗”任务。

任务介绍:

本次智能对话诊疗评测设置3个赛道。

赛道一：医患对话理解医患对话理解旨在对问诊文本信息进行信息抽取，主要包括两个任务，分别是命名实体识别和症状检查识别。

任务1：命名实体识别。从医患对话文本中识别出五类重要的医疗相关实体。任务2：症状识别。根据医患对话文本，识别出病人具有的症状信息。本赛道数据集包括超过3000组医患对话案例样本，覆盖6种儿科疾病，10万余句对话，样本平均对话次数为40次，平均每个样本的对话字数为523个。

赛道二：医疗报告自动生成医疗报告自动生成旨在对问诊过程中进行信息的总结，任务要求参赛团队能依据病人自述和医患对话，输出具有规定格式的医疗报告。报告需要包含6个部分：主诉、现病史、辅助检查、既往史、诊断和建议。

任务1：医疗报告生成。依据病人自述和医患对话，输出具有规定格式的医疗报告。本赛道数据集包括超过3000组医患对话案例样本，覆盖6种儿科疾病，10万余句对话，样本平均对话次数为40次，平均每个样本的对话字数为523个。

赛道三：智能化医疗诊断就诊过程是一个带有目的的序列化医生-患者交互的过程。智能化医疗诊断是任务型对话系统的重点研究方向。

任务1：面向自动诊疗的对话系统。要求参赛系统根据给出的显性信息（病人自诉中提及的症状、检查），与病人模拟器进行互动以获取更多病人的症状、已做的医疗检查，依据交互内容判断疾病，并给出相应的检查建议。本赛道的数据集超过2000个样本，每个样本包含疾病类别、病人自诉文本、直接信息（病人自诉中明确提及的实体信息，包括症状和检查）、隐藏信息（结合整段医患对话得到的实体及标签，表示患者是否已经有该症状、是否已经做过该检查）。

任务网址

附：

CCL2021评测官网

中文数据集

1. Yidu-S4K：医渡云结构化4K数据集

数据集描述：

Yidu-S4K 数据集源自CCKS 2019 评测任务一，即“面向中文电子病历的命名实体识别”的数据集，包括两个子任务： 1）医疗命名实体识别：由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集，本年度保留了医疗命名实体识别任务，对2017年度数据集做了修订，并随任务一同发布。本子任务的数据集包括训练集和测试集。 2）医疗实体及属性抽取（跨院迁移）：在医疗实体识别的基础上，对预定义实体属性进行抽取。本任务为迁移学习任务，即在只提供目标场景少量标注数据的情况下，通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集（非目标场景和目标场景的标注数据、各个场景的非标注数据）和测试集（目标场景的标注数据

数据集地址

度盘下载地址：https://pan.baidu.com/s/1QqYtqDwhc_S51F3SYMChBQ

提取码：flql

2.瑞金医院糖尿病数据集

数据集描述：

数据集来自天池大赛。此数据集旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率，高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”，第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

官方提供的数据只包含训练集，真正用于最终排名的测试集没有给出。

数据集地址

度盘下载地址：https://pan.baidu.com/s/1CWKblBNBqR-vs2h0xiXSdQ

提取码：0c54

3.Yidu-N7K：医渡云标准化7K数据集

数据集描述：

Yidu-N4K 数据集源自CHIP 2019 评测任务一，即“临床术语标准化任务”的数据集。临床术语标准化任务是医学统计中不可或缺的一项任务。临床上，关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化（归一）要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础，研究人员才可对电子病历进行后续的统计分析。本质上，临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样，单一的匹配模型很难获得很好的效果。

数据集地址

4.中文医学问答数据集

数据集描述：

中文医药方面的问答数据集，超过10万条。

数据说明:

questions.csv：所有的问题及其内容。answers.csv ：所有问题的答案。 train_candidates.txt， dev_candidates.txt， test_candidates.txt ：将上述两个文件进行了拆分。

数据集地址

数据集github地址

5.平安医疗科技疾病问答迁移学习比赛

数据集描述：

本次比赛是chip2019中的评测任务二，由平安医疗科技主办。chip2019会议详情见链接：http://cips-chip.org.cn/evaluation 迁移学习是自然语言处理中的重要一环，其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果，从而提高模型的泛化能力。本次评测任务的主要目标是针对中文的疾病问答数据，进行病种间的迁移学习。具体而言，给定来自5个不同病种的问句对，要求判定两个句子语义是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。

数据集地址(需注册)

6.天池新冠肺炎问句匹配比赛

数据集描述：

本次大赛数据包括：脱敏之后的医疗问题数据对和标注数据。医疗问题涉及“肺炎”、“支原体肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”、“胸膜炎”、“肺气肿”、“感冒”、“咳血”等10个病种。数据共包含train.csv、dev.csv、test.csv三个文件，其中给参赛选手的文件包含训练集train.csv和验证集dev.csv，测试集test.csv 对参赛选手不可见。每一条数据由 Category，Query1，Query2，Label构成，分别表示问题类别、问句1、问句2、标签。Label表示问句之间的语义是否相同，若相同，标为1，若不相同，标为0。其中，训练集Label已知，验证集和测试集Label未知。示例类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部发炎是什么引起的标签:1 类别：肺炎问句1：肺部发炎是什么原因引起的？问句2：肺部炎症有什么症状标签:0

数据集地址(需注册)

线上第四名解决方案及代码

线上第一名解决方案及代码

7.中文医患问答对话数据

数据说明: 来自某在线求医产品的中文医患对话数据。

原始描述:The MedDialog dataset contains conversations (in Chinese) between doctors and patients. It has 1.1 million dialogues and 4 million utterances. The data is continuously growing and more dialogues will be added. The raw dialogues are from haodf.com. All copyrights of the data belong to haodf.com.

项目地址

度盘下载地址: https://pan.baidu.com/s/1ZwzNgvAAMQk4klerTspsoA

提取码: lbo4

8.中文医学问答数据

数据说明: 包含六个科室的医学问答数据，来源不明。

项目地址

9.CHIP2020各项评测已开放

CHIP2020各项评测已开放，包括医学领域的实体识别，关系抽取，文本生成，术语标准化等任务，可以前往官网查阅。

CHIP2020官方网址

10.医学数据挖掘与算法评测大赛

新鲜出炉，详情参看paperweekly公众号。文章链接

11.中文医疗对话数据集

github开源数据

项目地址

12.阿里发布的中文医疗标准数据集合

阿里团队发布的中文医疗NLP相关评测数据集合Chinese_BLUE,发表于WSDM2020。另外:项目中说此项目非阿里的官方产品，所以仅供参考。

404-N0T-Found/Chinese_medical_NLP

Chinese_medical_NLP

评测及比赛更新

MEDIQA-2021

ICLR-2021-医疗对话生成与自动诊断国际竞赛

中文医疗信息处理挑战榜CBLUE数据集

**计算语言学大会CCL-2021智能医疗对话诊疗评测任务

中文数据集

1. Yidu-S4K：医渡云结构化4K数据集

2.瑞金医院糖尿病数据集

3.Yidu-N7K：医渡云标准化7K数据集

4.中文医学问答数据集

5.平安医疗科技疾病问答迁移学习比赛

6.天池新冠肺炎问句匹配比赛

7.中文医患问答对话数据

8.中文医学问答数据

9.CHIP2020各项评测已开放

10.医学数据挖掘与算法评测大赛

11.中文医疗对话数据集

12.阿里发布的中文医疗标准数据集合

中文医学知识图谱

CMeKG

英文数据集

PubMedQA: A Dataset for Biomedical Research Question Answering

COMETA: A Corpus for Medical Entity Linking in the Social Media

MedMentions

相关论文

1.医疗领域预训练embedding

2.综述类文章

3.电子病历相关文章

4.医学关系抽取

5.医学知识图谱

6.辅助诊断

7.ACL2020医学领域相关论文列表

8.医疗实体Linking（标准化）

9. AAAI2020 医学NLP相关论文列表

10. EMNLP2020 医学NLP相关论文列表

中文医疗领域语料

医学教材+培训考试

哈工大《大词林》开放75万核心实体词及相关概念、关系列表（包含中药/医院/生物 类别）

医学embedding

开源英文医学embedding

开源工具包

分词工具

PKUSEG

工业级产品解决方案

blog分享

友情链接

哈工大《大词林》开放75万核心实体词及相关概念、关系列表（包含中药/医院/生物类别）