awesome-knowledge-graph

整理知识图谱相关学习资料,提供系统化的知识图谱学习路径。


目录

理论及论文

整体概念架构

随着知识图谱的发展,与之相关的概念也越来越多,在阅读论文时先准确的把握该论文所要解决问题处于的层级或者位置对于更好的理解论文也比较有帮助,在此对知识图谱的概念进行了总结整理,整体概念架构图如下图所示,后面的论文分类也按照该整体架构概念图从顶向下,从整体到细节的方式组织。

image

综述综合

大综述

Knowledge-Augmented LMs(知识增强语言模型)

知识图谱增强语言模型是最近两年比较流行,主要发生在BERT出来之后,将知识先验信息融入到语言模型,可以说是知识图谱助力NLP十分关键的一环,将该专题放在比较靠前的位置。

常识图谱(Commonsense)

目前人工智能在很多方面表现的比较智障的原因,很多学者仍为是由于AI缺乏基本常识知识的原因,因此,从感知智能到认知智能常识知识起着很重要的作用,而常识图谱作为常识知识的一个重要表示手段也越来越受到重视。

知识应用

对话系统

知识图谱落地应用最为广泛的一个方向,研究人数也众多,个人觉得在工业界可发挥的空间比较大。

知识库问答-KBQA

知识计算

Representation(知识表示)

知识应用的基础,目前分布式表示或者embedding大有一统江湖的意思,各种花式embedding眼花缭乱。

Reasoning(知识推理)

听起来高大上的方向,实际落地感觉很不容易,学术界发paper可能还行,但是在工业界容易跪,要推理也尽量离线展开,不要在线推理。

KG Completion(图谱补全)

Coreference Resolution(指代消解)

知识获取

NER(命名实体识别)

也是自然语言处理的基础任务,十分重要。

Entity aligning(实体对齐)

知识建模

Taxonomy(本体构建)

其他扩展

Tracing(知识追踪)

本类别并不是传统知识图谱中的任务,而是与教育领域结合的广义上的知识图谱任务。

图谱及数据集

开放知识图谱

中文开放知识图谱(OpenKG.CN)

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用,包括了众多的数据集以及工具。

领域知识图谱

学术知识图谱AceKG

最新发布的Acemap知识图谱(AceKG)描述了超过1亿个学术实体、22亿条三元组信息,涵盖了全面的学术信息。具体而言,AceKG包含了61,704,089篇paper、52,498,428位学者、50,233个研究领域、19,843个学术研究机构、22,744个学术期刊、1,278个学术会议以及3个学术联盟(如C9联盟)。

同时,AceKG也为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,旨在为众多学术大数据挖掘项目提供全面支持。

数据集

SQuAD

YAGO

YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成,使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,YAGO包含1.2亿条三元组知识。YAGO是IBM Watson的后端知识库之一。由于完成的YAGO数据集过于庞大,在使用过程中经常会选取其中一部分进行,比如可以抽取中带有时间注释(time annotations)的部分形成YAGO11k数据集。

WikiData

WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科于2012年启动,早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及Google的联合资助。WikiData继承了Wikipedia的众包协作的机制,但与Wikipedia不同,WikiData支持的是以三元组为基础的知识条目(Items)的自由编辑。一个三元组代表一个关于该条目的陈述(Statements)。

NLPCC 2017 KBQA

该任务来自NLPCC 2017评测任务,开放域问答评价任务主要包括三项子任务,基于知识库的问答(kbqa),基于文档的问答(dbqa),和基于表的问答(tbqa)。kbqa的任务是基于知识库的中文问题回答。dbqa的任务是通过选择一个或多个句子从一个给定的文档,作为答案回答中文问题。tbqa的任务是一个全新的QA任务,旨在通过从收集的表格中抽取一个或多个表回答英语问题。

下载链接

GDELT

GDELT(Global Database of Events, Language, and Tone)是最大的综合人类社会关系数据库,以100多种语言监控来自每个国家几乎每个角落的广播、印刷和网络新闻,并确定推动我们全球社会的人、地点、组织、主题、来源、情感、计数、报价、图像和事件每天的每一秒,它的全球知识图将世界的人,组织,地点,主题,计数,图像和情感连接到整个地球上的单一整体网络。为整个世界的计算创建一个免费的开放平台。

下载链接

ICEWS

ICEWS(Integrated Crisis Early Warning System)捕获和处理来自数字化新闻媒体,社交媒体和其他来源的数百万条数据,以预测,跟踪和响应世界各地的事件,主要用于早期预警。该数据集在知识图谱领域主要用于动态事件预测等动态图谱方面。

下载链接

OAG

OAG(Open Academic Graph包含来自MAG的166,192,182篇论文和来自AMiner的154,771,162篇论文,并生成了两个图之间的64,639,608个链接(匹配)关系。它可以作为研究引文网络,论文内容等的统一大型学术图表,也可以用于研究多个学术图表的整合。

下载链接

工具

根据知识图谱的通用基本构建流程为依据,每个阶段都整理部分工具。

知识建模

知识抽取

Deepdive

知识推理

知识表示

OpenKE

清华大学NLP实验室基于TensorFlow开发的知识嵌入平台,实现了大部分知识表示学习方法。

知识融合

白皮书及报告

机构及人物

本部分介绍在知识图谱领域前沿研究或者有一定影响力的机构以及个人。

机构

人物

视频课程

小象学院知识图谱课程

贪心学院知识图谱课程

炼数成金知识图谱课程

CSDN视频课

专栏合集

知乎集合

简书集合

评测竞赛

会议交流及讲座

AICon

BDTC

其他

项目案例

教育领域知识图谱

金融领域知识图谱

利用网络上公开的数据构建一个小型的证券知识图谱/知识库

上市公司高管图谱

医疗领域知识图谱

农业领域知识图谱

使用爬虫获取Wikidata数据构建

知识工程领域知识图谱

其他知识图谱

红楼梦人物关系图谱

通用领域知识图谱

免费1.5亿实体通用领域知识图谱

简易电影领域知识图谱及KBQA系统

推广技术文章

2020

2019

2018

2017

2016