/CSTS

中文自然语言推理与语义相似度数据集

中文自然语言推理与语义相似度数据集

  • 哈工大 LCQMC 数据集
  • AFQMC 蚂蚁金融语义相似度数据集
  • OPPO 小布对话文本语义匹配数据集
  • 谷歌 PAWS-X 数据集
  • 北大中文文本复述数据集 PKU-Paraphrase-Bank
  • Chinese-STS-B 数据集
  • Chinese-MNLI 自然语言推理数据集
  • Chinese-SNLI 自然语言推理数据集
  • OCNLI 中文原版自然语言推理数据集
  • CINLID 中文成语语义推理数据集

语义相似度

哈工大 LCQMC 数据集

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同。该数据集的数据预览如下:

喜欢打篮球的男生喜欢什么样的女生	爱打篮球的男生喜欢什么样的女生		1
我手机丢了,我想换个手机    我想买个新手机,求推荐		1
大家觉得她好看吗	大家觉得跑男好看吗?		0

原始数据集链接:http://icrc.hitsz.edu.cn/Article/show/171.html

AFQMC 蚂蚁金融语义相似度数据集

AFQMC(Ant Financial Question Matching Corpus)蚂蚁金融语义相似度数据集,用于问题相似度计算。即:给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。每一条数据有三个属性,分别是句子1,句子2,句子相似度标签。标签 "1" :表示两个句子的语义类似;"0":表示两个句子的语义不同。

原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 '\t' 分隔:

花呗消费超过额度有什么影响吗	花呗额度成负数有啥影响吗	1
还款还清了,为什么花呗账单显示还要还款		花呗全额还清怎么显示没有还款	1
花呗一次性付款有限制吗		解除花呗支付限制	0

原始数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=106411

OPPO 小布对话文本语义匹配数据集

该数据集通过对闲聊、智能客服、影音娱乐、信息查询等多领域真实用户交互语料进行用户信息脱敏、相似度筛选处理得到,数据主要特点是文本较短、非常口语化、存在文本高度相似而语义不同的难例。该数据集所有标签都有经过人工精标确认。

原始数据为 json 格式,本仓库将其处理成形如 LCQMC 三列的格式,每列之间使用 '\t' 分隔:

我真的超级生气		气死我了	1
你生日是几月几日	你的老师生日是几月几日		0
打电话给爱老公		给爱老公打电话		1

原始数据集链接:https://tianchi.aliyun.com/competition/entrance/531851/introduction

谷歌 PAWS-X 数据集

谷歌发布的同义句识别数据集,中文部分包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,重点考察模型对句法结构的理解能力。该数据集的数据预览如下:

2	1975年的NBA赛季 -  76赛季是全美篮球协会的第30个赛季。	1975-76赛季的全国篮球协会是NBA的第30个赛季。	1
3	还有具体的讨论,公众形象辩论和项目讨论。    还有公开讨论,特定档案讨论和项目讨论。		0
4	当可以保持相当的流速时,结果很高。	当可以保持可比较的流速时,结果很高。	1

每条数据包含4列,分别表示数据 id,sentence1,sentence2 和 label,每列之间使用 '\t' 分隔。

原始数据集链接:https://github.com/google-research-datasets/paws

北大中文文本复述数据集 PKU-Paraphrase-Bank

北大发布的中文文本复述语料库,每条数据包含两列,分别表示两个具有相同含义的句子,列与列之间使用 '\t' 分隔。该数据集一共有 509832 组句子对,平均每句 23.05 个词。

莫雷尔指指肩膀,向士兵们暗示那是一个军官,应当给他找个地方暖和暖和。	莫雷尔指着他的肩,向士兵们示意,这是一个军官,应当让他暖和一下。
他细心地把斧头套在大衣里面的环扣里。	他把斧子细心地挂在大衣里面的绳套上。
仁慈的上帝!难道那时我灵魂中还有一丝精力未曾使用?	仁慈的主呵!那时难道有我心灵中的任何一种能力不曾发挥么?

原始数据集链接:https://github.com/pkucoli/PKU-Paraphrase-Bank/

Chinese-STS-B 数据集

该数据集通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文语义相似度计算数据集不够的问题。每条数据包含三列,分别表示 sentence1、sentence2 和相似等级,相似等级范围为 0~5,5 表示语义一致,0 表示语义不相关。

一架飞机要起飞了。	一架飞机正在起飞。	5
一个男人在切面包。	一个人在切洋葱。	2
一个男人在划独木舟。	一个人在弹竖琴。	0
一个男人开着他的车。	一个男人在开车。	4
三个男孩在跳舞。	孩子们在跳舞。		3
一个人一只手握着一只小动物。	一个男人在炫耀一只小猴子。	1

原始数据集链接:https://github.com/pluto-junzeng/CNSD

自然语言推理

Chinese-MNLI 自然语言推理数据集

该数据集来自于中文语言理解测评基准 CLUE benchmark(https://github.com/CLUEbenchmark/CLUE ),数据内容来自于 fiction、telephone、travel、government、slate 等,通过对原始的英文 MNLI 和 XNLI 数据进行翻译得到。该数据集可用于判断给定的两个句子之间属于蕴涵、中立、矛盾关系。

{"sentence1": "神圣对她来说并不神秘。", "sentence2": "女人对神圣的东西很熟悉。", "label": "entailment"}
{"sentence1": "萨达姆可能会在阿拉伯世界的眼中变得更加强大(而美国被玷污了)。", "sentence2": "美国对萨达姆的看法也会恶化。", "label": "neutral"}
{"sentence1": "1995年6月21日,规定了评估和报告控制措施的具体要求。", "sentence2": "对评估没有具体要求。", "label": "contradiction"}
{"sentence1": "他们整合计划以提高效率并更有效地部署资源。", "sentence2": "提高效率的计划得到了巩固,因为他们非常关心效率。", "label": "-"}

原始的每条数据为 json 格式,包含三个属性:sentence1、sentence2 和 label 标签,其中 label 标签有三种:entailment、neutral、contradiction。本仓库将原始数据转化成形如 LCQMC 三列的格式,并去除了极少部分标签为 "-" 的数据,处理后的数据预览如下:

我们设法找出各机构在过去5年中普遍采用的做法。		我们想找出机构在过去5年中经常使用的做法。	entailment
在这种令人惊奇的文化融合中,有一种对连续性的热情。	对连续性的热情并不是这些文化中最重要的。	neutral
很慢,现在市面上有很多更好的机器    这是最快的机器,你找不到更好的机器。	contradiction

原始数据集链接:https://storage.googleapis.com/cluebenchmark/tasks/cmnli_public.zip

Chinese-SNLI 自然语言推理数据集

该数据集通过翻译加人工修正的方法,从英文原数据集生成,可以一定程度上缓解中文自然语言推理数据集不够的问题。该数据集的格式和 Chinese-MNLI 一致,原始的每条数据为 json 格式,本仓库将其转化成形如 LCQMC 三列的格式,处理后的数据预览如下:

用马和马车在花园里施肥的农民。		这个人正在给他的花园施肥。	entailment
用马和马车在花园里施肥的农民。		那人在一片空地上,有一匹马和一辆马车。		neutral
用马和马车在花园里施肥的农民。		那人带着他的马和马车在城里的大街上。	contradiction

原始数据集链接:https://gitee.com/jiaodaxin/CNSD

OCNLI 中文原版自然语言推理数据集

原生中文自然语言推理数据集 OCNLI,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。该数据集来自于中文语言理解测评基准 CLUE benchmark(https://github.com/CLUEbenchmark/OCNLI ),原始的每条数据为 json 格式:

{
    "level":"medium",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"推进集体林权制度改革需要分区域逐步施行",
    "label":"neutral",
    "genre":"gov",
    "prem_id":"gov_1862",
    "id":18554
}
{
    "level":"hard",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"对旧有的林权制度进行调整",
    "label":"entailment",
    "genre":"gov",
    "prem_id":"gov_1862"
    "id":18555
}
{
    "level":"easy",
    "sentence1":"推进集体林权制度改革",
    "sentence2":"林权为私人所有",
    "label":"contradiction",
    "genre":"gov",
    "prem_id":"gov_1862",
    "id":18556
}

本仓库将原始数据转化成形如 LCQMC 三列的格式,并去除了极少部分标签为 "null" 的数据,三列分别表示 sentence1、sentence2 和 label 标签。处理后的数据预览如下:

推进集体林权制度改革		推进集体林权制度改革需要分区域逐步施行		neutral
推进集体林权制度改革		对旧有的林权制度进行调整    entailment
推进集体林权制度改革		林权为私人所有		contradiction

数据集原始链接:https://storage.googleapis.com/cluebenchmark/tasks/ocnli_public.zip

CINLID 中文成语语义推理数据集

中文成语语义推理数据集(Chinese Idioms Natural Language Inference Dataset)收集了 91,247 个由人工撰写的成语对(含少量歇后语、俗语等短文本),通过人工标注的方式进行平衡分类,标签为 entailment、contradiction 和 neutral,支持自然语言推理(NLI)的任务。

原始数据集以 json 的形式存在,每一行即一条数据,每一条数据包含 sentence1、sentence2、和 label 三个字段,label 的取值范围为 entailment、contradiction 和 neutral。

{"sentence1":"拾陈蹈故","sentence2":"因循守旧","label":"entailment"}
{"sentence1":"稀奇古怪","sentence2":"平淡无奇","label":"contradiction"}
{"sentence1":"沉滓泛起","sentence2":"凤泊鸾飘","label":"neutral"}

本仓库将原始数据转化成形如 LCQMC 三列的格式,预览如下:

拾陈蹈故	因循守旧	entailment
稀奇古怪	平淡无奇	contradiction
沉滓泛起	凤泊鸾飘	neutral

该数据可用于:

  • 测试语义模型的语义理解能力;
  • 用于微调预训练模型以获得良好的语句表示,能较好的捕捉语义相关性。

原始数据集链接:https://www.heywhale.com/mw/dataset/608a8c45d0bc41001722dc37/content

声明

本仓库数据集只能用于学术研究,请勿用作商业。