1.任务

给定schema约束集合及句子sent,其中schema定义了关系P以及其对应的主体S和客体O的类别,例如(S_TYPE:人物,P:妻子,O_TYPE:人物)、(S_TYPE:公司,P:创始人,O_TYPE: 人物)等。 任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。 输入/输出:

(1) 输入:schema约束集合及句子sent
(2) 输出:句子sent中包含的符合给定schema约束的三元组知识Triples

就是给一个句子,找里边的三元组

2. 数据

本次竞赛使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含 的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测 试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前一周发布,不能在平台上自主验证,并将作为最终的评测排名。

3. 指标

F1, Precision,Recall

4. 官方的Baseline

本次竞赛将提供PaddlePaddle 版本的开源信息抽取基线系统,基线系统的实现请参考:开源系统。 百度AI Studio提供免费GPU集群和基线示例:P分类模型、SPO模型


上边说了一堆没什么用的😖

用苏神的代码,调调模型,可以上八十,看苏神一直在前三,一定是我那做的不对.😓 再搞一个两步走的吧,看看效果怎么样 😆