QABasedOnMedicaKnowledgeGraph

项目介绍本项目立足医药领域，以垂直型医药网站为数据来源，以疾病为核心，使用爬虫脚本data_spider.py，构建起一个包含7类规模为4.4万的知识实体， 11类规模约30万实体关系的知识图谱。原始数据包含8000多种病，包括与肝病相关的有200多种病。

本项目schema的设计根据所采集的结构化数据生成，对网页的结构化数据进行xpath解析，项目的数据存储采用Neo4j图数据库，并基于传统规则的方式完成了知识问答，并最终以cypher查询语句作为问答搜索sql，支持了问答服务。同时尝试把数据存储在mongodb上。项目源码已上传GitHub。

基于规则的问答系统没有复杂的算法，一般采用模板匹配的方式寻找匹配度最高的答案，回答结果依赖于问句类型、模板语料库的覆盖全面性，面对已知的问题，可以给出合适的答案，对于模板匹配不到的问题或问句类型，经常遇到不合适的回答。整个问答系统的优劣依赖于知识图谱中知识的数量与质量，大多数知识图谱规模不足，主要原因还是数据来源以及技术上知识的抽取与推理困难。本项目中关于疾病的起因、预防等，实际返回的是一大段文字，这里其实可以引入事件抽取的概念，进一步将原因结构化表示出来。这个可以后面进行尝试。

本项目将包括以下两部分的内容：

1.基于垂直网站数据的医药知识图谱构建 2.基于医药知识图谱的自动问答

详细介绍可见博客：https://www.cnblogs.com/chen8023miss/p/12132938.html

kdhahg/QABasedOnMedicaKnowledgeGraph

QABasedOnMedicaKnowledgeGraph