wenyu332/NLPDataSet

记录本人整理的一些数据集

Apache-2.0

NLPDataSet

大家好，我是刘聪NLP。

本项目为本人收集并整理的一些数据集，目前包括中文摘要数据集、中文片段抽取式阅读理解数据集（QA）和中文文本相似度数据集。

希望大家可以多多转发、多多start。

UpDate 01.06.2022

从网上收集数据，将DIAC2019、CCKS2018_Task3、LCQMC、AFQMC、GAIIC2021_Task3、THS2021、CHIP2019、SOHU_2021、COVID19、PAWSX、XF2021、Chinese-MNLI、Chinese-SNLI、Chinese-STS-B、OCNLI、PKU Paraphrase Bank等16个数据集进行整理清洗，构建一个较完善的中文文本匹配数据集。
数据集清洗主要包括：针对4个NLI数据集进行标签转换，STS-B数据集进行分数过滤，PKU复述数据集仅生成正标签。
处理后数据集详细信息，见数据集描述。
增加CINLID词语级匹配数据集。

数据	原始数据/项目地址	原始数据描述
DIAC2019	地址	基于Adversarial Attack的问题等价性判别比赛数据集
CCKS2018_Task3	地址	CCKS 2018 微众银行智能客服问句匹配大赛
LCQMC	地址	哈工大发表的一个中文问答匹配数据集
AFQMC	地址	蚂蚁金融语义相似度数据集
GAIIC2021_Task3	地址	小布助手对话短文本语义匹配比赛数据集
THS2021	地址	同花顺2021人工智能大赛-跨领域迁移的文本语义匹配数据集
CHIP2019	地址	平安医疗科技疾病问答迁移学习比赛数据集
SOHU_2021	地址	2021搜狐校园文本匹配算法大赛数据集
COVID19	地址	“公益AI之星”挑战赛-新冠疫情相似句对判定大赛数据集
PAWSX	地址	多语言释义识别对抗性数据集
XF2021	地址	讯飞赛题—中文问题相似度挑战赛数据集
Chinese-MNLI	地址	中文MNLI数据集
Chinese-SNLI	地址	中文SNLI数据集
Chinese-STS-B	地址	中文SNLI数据集
OCNLI	地址	原生中文自然语言推理数据集，是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。
PKU	地址	句级中文文本复述语料库
CINLID	地址	中文成语语义推理数据集

清洗及格式转换后的数据，下载链接如下：百度云
提取码：rt6f

UpDate 08.03.2021

从网上收集数据，将DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集进行整理清洗，构建一个较完善的中文片段抽取式阅读理解数据集。
数据集清洗时，仅进行了简单地规则清洗，并将格式进行了统一化。
处理后数据集详细信息，见数据集描述

数据	原始数据/项目地址	原始数据描述
DRCD	地址	台达阅读理解资料集 Delta Reading Comprehension Dataset (DRCD) 属于通用领域繁体中文机器阅读理解资料集。本资料集期望成为适用于迁移学习之标准中文阅读理解资料集。本资料集从2,108篇维基条目中整理出10,014篇段落，并从段落中标注出30,000多个问题
cmrc2018	地址	第二届“讯飞杯”中文机器阅读理解评测
chinese-squad	地址	中文机器阅读理解数据集，本数据集通过机器翻译加人工校正的方式从原始Squad转换而来，其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案（短答案翻译和文档翻译有出入），故数据量对比原始英文版SQuAD 有所减少。
中医数据集	地址	本次标注数据源来自中医药领域文本，包括【黄帝内经翻译版】、【名医百科中医篇】、【中成药用药卷】、【慢性病养生保健科普知识】四个主要来源，共标注 13000对（问题、文档、答案），来源于5000篇文档，每篇文档由人工标注产生1～4对(问题, 答案)对。
法研杯2019	地址	裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本任务是首次基于中文裁判文书的阅读理解比赛，属于篇章片段抽取型阅读理解比赛（Span-Extraction Machine Reading Comprehension）。
莱斯杯机器阅读理解	地址	本次竞赛将提供面向军事应用场景的大规模中文阅读理解数据集，围绕多文档机器阅读理解进行竞赛，涉及理解、推理等复杂技术。每个问题对应五篇候选文章，问题与篇章中的答案证据句间存在较大的语法与句式变化。需要在多篇章定位与深度理解的基础上，从存在干扰项的多篇文章中搜寻出最优答案，更富挑战性的是问题的答案可能需要结合至少两篇文章的相关内容，进行关联推断才能够准确得出。
疫情QA	地址	任务将提供以疫情为主的政策数据集、用户问题以及标注好的答案片段，参赛者可自行通过对政策数据的分析、处理和组织，利用训练数据集训练智能问答算法，并在测试数据集上进行评测，评测指标为最终返回答案的准确性。
WebQA	地址	百度利用百度知道和其他资源，构建了一个这样的一个数据集，称为WebQA
Dureader	地址	百度整理出来的阅读理解数据集，问题和文档均来自于百度搜索和百度知道，而答案是人工手动生成的，因此数据集更加切合真实场景。

清洗及格式转换后的数据，下载链接如下：百度云
提取码：02ta

UpDate 01.02.2021

从网上收集数据，将清华新闻数据、搜狗新闻数据等新闻数据集，以及开源的一些摘要数据进行整理清洗，构建一个较完善的中文摘要数据集。
数据集清洗时，仅进行了简单地规则清洗。例如：清洗htlm标记、去除多余空字符、去除图片标记等。
处理后数据集详细信息，见数据集描述

数据	原始数据/项目地址	处理后文件下载地址
清华新闻数据	地址	百度云盘提取码： vhol
搜狗新闻数据	地址	百度云盘提取码：ode6
nlpcc2017摘要数据	地址	百度云盘提取码：e0zq
csl摘要数据	地址	百度云盘提取码：0qot
教育培训行业摘要数据	地址	百度云盘提取码：kjz3
lcsts摘要数据	地址	百度云盘提取码：bzov
神策杯2018摘要数据	地址	百度云盘提取码：6f4f
万方摘要数据	地址	百度云盘提取码： p69g
微信公众号摘要数据	地址	百度云盘提取码： 5has
微博数据	地址	百度云盘提取码： 85t5
news2016zh新闻数据	地址	百度云盘提取码： qsj1

数据集集合：百度云盘提取码： 7am8

声明

本项目中整理的所有数据集，仅能用于学术研究，请勿用于商业。