cnschema/cnSchema

cnSchema讨论会,0616湖州会议纪要

Closed this issue · 0 comments

一、OpenKg知识库链接的进展

  1. 数据集质量问题,中可能存在实体相同,但是实体类型不同的问题,需要过滤清理,比如景岗山
  2. 主要做了zhishi.me和CNDBpedia等开放百科数据dump和链接
  3. 因为数据集质量不好,所以目前只做了字符串匹配,无法使用属性值算法
  4. 链接的传递性主要用来验证,假设A到B,B到C,C到A,则表示链接正确
  5. 垂直领域数据,如金融,医疗,音乐,影视等,需要链接到百科,比如,人物
  6. 严格匹配遇到多义词处理问题
  7. 百科中的【人物】分类数据单独抽取出来,形成比较丰富的属性,并开放数据;从人物属性抽取子集,支持映射垂直领域数据
  8. 知识图谱的应用(1)建立链接(2)提供属性服务
  9. 百科实体分类的问题,(1)数据漏掉的可能性(2)分类不准
  10. 人物的linkset,支持建立实体链接,比如音乐实体对接百科

二、cnSchema第一版中文的上线

  1. Bot以data api的形式提供结果,所以对知识图谱的要求比较高
  2. cnschema 更加强调BOT API,而不仅仅是知识嵌入(schema.org)
  3. 扩展中文概念,实体和属性,比如人物的籍贯、斋号等等
  4. 扩展数据模型,cnschema一部分来源于schema.org,一部分对接openkg,所以是schema.org和openKg的交集
  5. 为什么不直接用schema.org?中文有的属性schema没有,另外一部分是schema的属性无法翻译成中文(美国环境)
  6. 尽可能复用schema.org的属性和顶级分类,这是扩展的基础;扩展领域的机制:一种有审核机制,提供自己的schema审核后放在schema.org;另外一种不需要审核,但是也不发布在schema上,只会提供一个链接入口
  7. 以github为社区基础扩展、提交、讨论
  8. 问题:定义域与值域、多元关系的数据模型、 是否扩展子属性,比如配偶包含老公、老婆
  9. alternateName的处理:倾向于用string of list,用于别名的识别

后续工作

  • cnschema翻译映射的修订
  • cnschema社区介绍文章编写
  • schema.org相关文章的翻译和改写
  • cnschema技术文档:需求分析
  • cnschema技术文档:数据模型
  • cnschema技术文档:领域知识图谱应用开发流程
  • cnschema技术文档:领域cnschema设计的技术指导样板(guidance)
  • cnschema网站设计与上线
  • 基于OpenKG开放数据做成项目,初期做几个样板(比如Bot)