2019语言与智能技术竞赛-信息抽取(base-line)

1.任务

给定schema约束集合及句子sent，其中schema定义了关系P以及其对应的主体S和客体O的类别，例如（S_TYPE:人物，P:妻子，O_TYPE:人物）、（S_TYPE:公司，P:创始人，O_TYPE: 人物）等。任务要求参评系统自动地对句子进行分析，输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。输入/输出:

(1) 输入:schema约束集合及句子sent
(2) 输出:句子sent中包含的符合给定schema约束的三元组知识Triples

就是给一个句子,找里边的三元组

2. 数据

本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集，其包含超过43万三元组数据、21万中文句子及50个已定义好的schema，表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集，2万验证集和2万测试集。其中训练集和验证集用于训练，可供自由下载，测试集分为两个，测试集1供参赛者在平台上自主验证，测试集2在比赛结束前一周发布，不能在平台上自主验证，并将作为最终的评测排名。

3. 指标

F1, Precision,Recall

4. 官方的Baseline

本次竞赛将提供PaddlePaddle 版本的开源信息抽取基线系统，基线系统的实现请参考：开源系统。百度AI Studio提供免费GPU集群和基线示例：P分类模型、SPO模型。

上边说了一堆没什么用的😖