该数据来源于天池竞赛平台,链接地址:https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.12281978.0.0.7592412fAyjFC6&dataId=22288 要获取原始数据请到天池平台下载。
- 疾病相关:
- 疾病名称 (Disease),如I型糖尿病。
- 病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”,胰岛素抵抗是属于病因。
- 临床表现 (Symptom),包括症状、体征,病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
- 检查方法(Test),包括实验室检查方法,影像学检查方法,辅助试验,对于疾病有诊断及鉴别意义的项目等,如甘油三酯。
- 检查指标值(Test_Value),指标的具体数值,阴性阳性,有无,增减,高低等,如”>11.3 mmol/L”。
- 治疗相关:
- 药品名称(Drug),包括常规用药及化疗用药,比如胰岛素。
- 用药频率(Frequency),包括用药的频率和症状的频率,比如一天两次。
- 用药剂量(Amount),比如500mg/d。
- 用药方法(Method):比如早晚,餐前餐后,口服,静脉注射,吸入等。
- 非药治疗(Treatment),在医院环境下进行的非药物性治疗,包括放疗,中医治疗方法等,比如推拿、按摩、针灸、理疗,不包括饮食、运动、营养等。
- 手术(Operation),包括手术名称,如代谢手术等。
- 不良反应(SideEff),用药后的不良反应。
- 常规实体:
- 部位(Anatomy),包括解剖部位和生物组织,比如人体各个部位和器官,胰岛细胞。
- 程度(level),包括病情严重程度,治疗后缓解程度等。
- 持续时间(Duration),包括症状持续时间,用药持续时间,如“头晕一周”的“一周”。
实体关系类别名称
- 检查方法 -> 疾病(Test_Disease)
- 临床表现 -> 疾病(Symptom_Disease)
- 非药治疗 -> 疾病(Treatment_Disease)
- 药品名称 -> 疾病(Drug_Disease)
- 部位 -> 疾病(Anatomy_Disease)
- 用药频率 -> 药品名称(Frequency_Drug)
- 持续时间 -> 药品名称(Duration_Drug)
- 用药剂量 -> 药品名称(Amount_Drug)
- 用药方法 -> 药品名称(Method_Drug)
- 不良反应 -> 药品名称(SideEff-Drug)
数据经过处理后有15778个实体,40060个关系
- 在diabets_kg_data文件夹下面有两个文件夹,分别是cate_ent(实体文件夹),cate_rel(关系文件夹),文件都是CSV类型
- 实体文件夹下面的15个文件,分别对应每种实体类型,每个文件有三列ent_id,ent_name,category,分别是实体ID,实体名称,实体类别
- 关系文件夹下面有10个文件,分别对应每种关系类型,每个文件有三列from,to,rel,分别是头节点实体,尾节点实体和实体关系类型