cnSchema讨论会,0616湖州会议纪要
Closed this issue · 0 comments
lidingpku commented
一、OpenKg知识库链接的进展
- 数据集质量问题,中可能存在实体相同,但是实体类型不同的问题,需要过滤清理,比如景岗山
- 主要做了zhishi.me和CNDBpedia等开放百科数据dump和链接
- 因为数据集质量不好,所以目前只做了字符串匹配,无法使用属性值算法
- 链接的传递性主要用来验证,假设A到B,B到C,C到A,则表示链接正确
- 垂直领域数据,如金融,医疗,音乐,影视等,需要链接到百科,比如,人物
- 严格匹配遇到多义词处理问题
- 百科中的【人物】分类数据单独抽取出来,形成比较丰富的属性,并开放数据;从人物属性抽取子集,支持映射垂直领域数据
- 知识图谱的应用(1)建立链接(2)提供属性服务
- 百科实体分类的问题,(1)数据漏掉的可能性(2)分类不准
- 人物的linkset,支持建立实体链接,比如音乐实体对接百科
二、cnSchema第一版中文的上线
- Bot以data api的形式提供结果,所以对知识图谱的要求比较高
- cnschema 更加强调BOT API,而不仅仅是知识嵌入(schema.org)
- 扩展中文概念,实体和属性,比如人物的籍贯、斋号等等
- 扩展数据模型,cnschema一部分来源于schema.org,一部分对接openkg,所以是schema.org和openKg的交集
- 为什么不直接用schema.org?中文有的属性schema没有,另外一部分是schema的属性无法翻译成中文(美国环境)
- 尽可能复用schema.org的属性和顶级分类,这是扩展的基础;扩展领域的机制:一种有审核机制,提供自己的schema审核后放在schema.org;另外一种不需要审核,但是也不发布在schema上,只会提供一个链接入口
- 以github为社区基础扩展、提交、讨论
- 问题:定义域与值域、多元关系的数据模型、 是否扩展子属性,比如配偶包含老公、老婆
- alternateName的处理:倾向于用string of list,用于别名的识别
后续工作
- cnschema翻译映射的修订
- cnschema社区介绍文章编写
- schema.org相关文章的翻译和改写
- cnschema技术文档:需求分析
- cnschema技术文档:数据模型
- cnschema技术文档:领域知识图谱应用开发流程
- cnschema技术文档:领域cnschema设计的技术指导样板(guidance)
- cnschema网站设计与上线
- 基于OpenKG开放数据做成项目,初期做几个样板(比如Bot)