Chinese_Medical_Natural_Language_Processing_Resources_and_Papers

🔥 News

  • 更新中文医学大模型汇总!

中文医学大模型汇总

模型名称 基座模型 发表单位 发布时间 相关网址
华佗GPT Baichuan-7B, Ziya-LLaMA-13B-Pretrain-v1 香港中文大学(深圳) 2023.5.25 [Github] , [Paper] , [Demo]
扁鹊 ChatGLM-6B 华南理工大学 2023.4.22 [Github], [Demo]
仲景 Ziya-LLaMA-13B 郑州大学(自然语言处理实验室) 2023.8.10 [Github], [Paper]
孙思邈 baichuan-7B, ChatGLM-6B 华东理工大学 2023.6.21 [Github]
启真 ChatGLM-6B, Chinese-LLaMA-7B, CaMA-13B 浙江大学 2023.5.23 [Github]
神农 LLaMA-7B 华东师范大学 2023.6.21 [Github]
本草 LLaMA-7B, Bloom-7B 哈尔滨工业大学(赛尔实验室) 2023.3.31 [Github], [Paper]
MeChat ChatGLM-6B 西湖大学,浙江大学 2023.4.30 [Github], [Paper], [Demo]
灵心 ChatGLM-6B 华南理工大学(同扁鹊) 2023.6.6 [Github]
明医 Bloomz-7B 上海交通大学(未来媒体网络协同创新中心) 2023.7.25 [Github]
PULSE Bloomz-7b-mt 上海人工智能实验室 2023.6 [Github]
DoctorGLM ChatGLM-6B 上海科技大学 2023.4.18 [Github]
ChatMed LLaMA-7B 华东师范大学(同神农) 2023.5.5 [Github]
MedicalGPT baichuan, LLaMA, ChatGLM, Bloomz 徐明(个人) 2023.6.5 [Github]
山海 -- 云知声(企业) -- [Demo]
左手GPT -- 左手医生(企业) -- [Demo]
XrayGLM [多模态] VisualGLM-6B 澳门理工大学 2023.5 [Github]

*如有遗漏或信息错误可提issue告知作者

中文医疗数据集

1.Yidu-S4K:医渡云结构化4K数据集

Yidu-S4K 数据集源自CCKS 2019 评测任务一,即“面向中文电子病历的命名实体识别”的数据集,包括两个子任务:

1)医疗命名实体识别:由于国内没有公开可获得的面向中文电子病历医疗实体识别数据集,本年度保留了医疗命名实体识别任务,对2017年度数据集做了修订,并随任务一同发布。本子任务的数据集包括训练集和测试集。

2)医疗实体及属性抽取(跨院迁移):在医疗实体识别的基础上,对预定义实体属性进行抽取。本任务为迁移学习任务,即在只提供目标场景少量标注数据的情况下,通过其他场景的标注数据及非标注数据进行目标场景的识别任务。本子任务的数据集包括训练集(非目标场景和目标场景的标注数据、各个场景的非标注数据)和测试集(目标场景的标注数据)。

数据集地址:http://openkg.cn/dataset/yidu-s4k

2.Yidu-N7K:医渡云标准化7K数据集

数据描述:Yidu-N4K 数据集源自CHIP 2019 评测任务一,即“临床术语标准化任务”的数据集。

临床术语标准化任务是医学统计中不可或缺的一项任务。临床上,关于同一种诊断、手术、药品、检查、化验、症状等往往会有成百上千种不同的写法。标准化(归一)要解决的问题就是为临床上各种不同说法找到对应的标准说法。有了术语标准化的基础,研究人员才可对电子病历进行后续的统计分析。本质上,临床术语标准化任务也是语义相似度匹配任务的一种。但是由于原词表述方式过于多样,单一的匹配模型很难获得很好的效果。

数据集地址:http://openkg.cn/dataset/yidu-n7k

3.瑞金医院MMC人工智能辅助构建知识图谱大赛

赛题描述:本次大赛旨在通过糖尿病相关的教科书、研究论文来做糖尿病文献挖掘并构建糖尿病知识图谱。参赛选手需要设计高准确率,高效的算法来挑战这一科学难题。第一赛季课题为“基于糖尿病临床指南和研究论文的实体标注构建”,第二赛季课题为“基于糖尿病临床指南和研究论文的实体间关系构建”。

数据集地址:https://tianchi.aliyun.com/competition/entrance/231687/information

4.中文医药方面的问答数据集

数据描述:该数据集由IEEE中一篇论文中提出,名为:Multi-Scale Attentive Interaction Networks for Chinese Medical Question Answer Selection,他是一个面向中文医疗方向的问答数据集,数量级别达10万级。 文件说明:questions.csv:所有的问题及其内容;answers.csv:所有问题的答案;train_candidates.txt, dev_candidates.txt, test_candidates.txt:将上述两个文件进行了拆分。

数据集地址:https://github.com/zhangsheng93/cMedQA2

5.平安医疗科技疾病问答迁移学习比赛

任务描述:本次比赛是chip2019中的评测任务二,由平安医疗科技主办。本次评测任务的主要目标是针对中文的疾病问答数据,进行病种间的迁移学习。具体而言,给定来自5个不同病种的问句对,要求判定两个句子语义是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。首页说明了相关数据的格式。

数据集地址:https://www.biendata.xyz/competition/chip2019/ 需注册才能下载

6.天池“公益AI之星”挑战赛--新冠疫情相似句对判定大赛

赛制说明:比赛主打疫情相关的呼吸领域的真实数据积累,数据粒度更加细化,判定难度相比多科室文本相似度匹配更高,同时问答数据也更具时效性。本着宁缺毋滥的原则,问题的场地限制在20字以内,形成相对规范的句对。要求选手通过自然语义算法和医学知识识别相似问答和无关的问题。相关数据说明参见比赛网址首页。

数据集地址:https://tianchi.aliyun.com/competition/entrance/231776/information 需注册才能下载

中文医学知识图谱

1.CMEKG

知识图谱简介:CMeKG(Chinese Medical Knowledge Graph)是利用自然语言处理与文本挖掘技术,基于大规模医学文本数据,以人机结合的方式研发的中文医学知识图谱。CMeKG的构建参考了ICD、ATC、SNOMED、MeSH等权威的国际医学标准以及规模庞大、多源异构的临床指南、行业标准、诊疗规范与医学百科等医学文本信息。CMeKG 1.0包括:6310种疾病、19853种药物(西药、中成药、中草药)、1237种诊疗技术及设备的结构化知识描述,涵盖疾病的临床症状、发病部位、药物治疗、手术治疗、鉴别诊断、影像学检查、高危因素、传播途径、多发群体、就诊科室等以及药物的成分、适应症、用法用量、有效期、禁忌证等30余种常见关系类型,CMeKG描述的概念关系实例及属性三元组达100余万。

CMEKG图谱地址:http://cmekg.pcl.ac.cn/

开源工具

分词工具

PKUSEG

pkuseg 是由北京大学推出的基于论文PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation 的工具包。其简单易用,支持细分领域分词,有效提升了分词准确度。

pkuseg具有如下几个特点: 1.多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络领域,医药领域,旅游领域,以及混合领域的分词预训练模型。在使用中,如果用户明确待分词的领域,可加载对应的模型进行分词。如果用户无法确定具体领域,推荐使用在混合领域上训练的通用模型。各领域分词样例可参考 example.txt。 2.更高的分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。 3.支持用户自训练模型。支持用户使用全新的标注数据进行训练。 4.支持词性标注。

项目地址:https://github.com/lancopku/pkuseg-python

友情链接

awesome_Chinese_medical_NLP

Chinese_medical_NLP