糖尿病知识图谱数据

一、数据来源

该数据来源于天池竞赛平台,链接地址:https://tianchi.aliyun.com/dataset/dataDetail?spm=5176.12281978.0.0.7592412fAyjFC6&dataId=22288 要获取原始数据请到天池平台下载。

实体类型有:

  • 疾病相关:
  1. 疾病名称 (Disease),如I型糖尿病。
  2. 病因(Reason),疾病的成因、危险因素及机制。比如“糖尿病是由于胰岛素抵抗导致”,胰岛素抵抗是属于病因。
  3. 临床表现 (Symptom),包括症状、体征,病人直接表现出来的和需要医生进行查体得出来的判断。如"头晕" "便血" 等。
  4. 检查方法(Test),包括实验室检查方法,影像学检查方法,辅助试验,对于疾病有诊断及鉴别意义的项目等,如甘油三酯。
  5. 检查指标值(Test_Value),指标的具体数值,阴性阳性,有无,增减,高低等,如”>11.3 mmol/L”。
  • 治疗相关:
  1. 药品名称(Drug),包括常规用药及化疗用药,比如胰岛素。
  2. 用药频率(Frequency),包括用药的频率和症状的频率,比如一天两次。
  3. 用药剂量(Amount),比如500mg/d。
  4. 用药方法(Method):比如早晚,餐前餐后,口服,静脉注射,吸入等。
  5. 非药治疗(Treatment),在医院环境下进行的非药物性治疗,包括放疗,中医治疗方法等,比如推拿、按摩、针灸、理疗,不包括饮食、运动、营养等。
  6. 手术(Operation),包括手术名称,如代谢手术等。
  7. 不良反应(SideEff),用药后的不良反应。
  • 常规实体:
  1. 部位(Anatomy),包括解剖部位和生物组织,比如人体各个部位和器官,胰岛细胞。
  2. 程度(level),包括病情严重程度,治疗后缓解程度等。
  3. 持续时间(Duration),包括症状持续时间,用药持续时间,如“头晕一周”的“一周”。

关系类型

实体关系类别名称

  1. 检查方法 -> 疾病(Test_Disease)
  2. 临床表现 -> 疾病(Symptom_Disease)
  3. 非药治疗 -> 疾病(Treatment_Disease)
  4. 药品名称 -> 疾病(Drug_Disease)
  5. 部位 -> 疾病(Anatomy_Disease)
  6. 用药频率 -> 药品名称(Frequency_Drug)
  7. 持续时间 -> 药品名称(Duration_Drug)
  8. 用药剂量 -> 药品名称(Amount_Drug)
  9. 用药方法 -> 药品名称(Method_Drug)
  10. 不良反应 -> 药品名称(SideEff-Drug)

二、数据规模

数据经过处理后有15778个实体,40060个关系

三、数据集说明

  • 在diabets_kg_data文件夹下面有两个文件夹,分别是cate_ent(实体文件夹),cate_rel(关系文件夹),文件都是CSV类型
  • 实体文件夹下面的15个文件,分别对应每种实体类型,每个文件有三列ent_id,ent_name,category,分别是实体ID,实体名称,实体类别
  • 关系文件夹下面有10个文件,分别对应每种关系类型,每个文件有三列from,to,rel,分别是头节点实体,尾节点实体和实体关系类型