Heterogeneous_Sources_for_Multi-docs

简介

以CLOCQ为原型,搭建一个可以用于检索多文档证据的异构知识库,用于下游任务。

初期以医学领域展开

步骤

现有知识图谱

KB倒排索引

KB转换事实

计算公式

链接异构源

计算公式

相关工作

大多数数字个人助理,如Alexa、Siri、Google Assistant或Cortana,本质上都是在其后端访问各种信息的QA系统,包括精心策划的KBs。

为了实现QA系统,可以确定一组常用的基本知识库功能,这些功能通常是必需的。例如,检索具有特定实体的所有KB事实,或者计算两个实体之间的最短KG路径,就是两种常见的需求。

除了QA之外,还有一系列其他任务/应用程序可以从快速方便地访问大型知识库中受益。命名实体识别和检测(NERD)系统可以用于将文本中的实体映射到规范化的对象,这可以提供关于手头文本的见解。另一个用例是实体排名,它在搜索引擎中显示以实体为中心的信息,例如“Angela Merkel”。此外,从知识库中提取的信息或统计数据可以用于提高下游任务的性能:实体之间的距离可以作为它们语义相似性的代理,知识库中实体的频率可以用于了解实体的流行程度,知识库本体可以帮助提取关系或答案验证。为了实现这些方法,需要几个共享的KB功能:标识两个实体之间的距离、检索KB项的频率、检索实体的类型,或者计算两个KB项之间的最短路径

具有多个tb数据的大型kb的可用接口通常基于SPARQL等查询语言。这样的接口允许对具有任意复杂性的知识库进行非常通用的访问,并且针对不同的查询模式和工作负载进行了大量优化。但是,实现上面提到的一些基本操作可能会导致查询的高度复杂性、人工工作量和效率开销。

一个关键问题是,使用现有接口访问KB需要深入了解和理解各自的KB模式,而每个KB的模式都是不同的。我们发现的另一个问题是,整个KB存储和相应的查询语言都针对本机RDF三重结构进行了优化。然而,现代KBs存储n- ary事实,使用物化(例如,通过维基数据中的限定符语句,或Freebase中的复合值类型(cvt)),超越了自包含三元组。事实上,维基数据中四分之一的事实通过这样的限定语句提供了额外的信息(一个完整的事实信息需要多个三元组来阐述)