/OpenDomainDialogCorpus

Open domain Chinese dialogue corpus and datasets.

OpenDomainDialogCorpus_CN

Open domain Chinese dialogue corpus and datasets.

根据一些论文和其他repo收录整理了若干中文开放域对话数据集,仅供学习交流使用。

数据集 描述 单轮/多轮 格式 规模 年份 提出论文 相关地址
Douban Conversaion Corpus 来自豆瓣数据,常用 多轮
点我 test集合包含1000组数据,每组数据由10个labeled context-response pair构成,10个数据标签可能均为0,可能具有多个(2-3)标签为1的数据。所有文本为已分词格式。
2017
点我 Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots. Yu Wu, Wei Wu, Chen Xing, Ming Zhou, Zhoujun Li. ACL 2017.
Here
Noah NRM Data / STC@NTCIR13 来自微博,常用 单轮
点我 相关下载链接已失效。找到的 NTCIR13 数据集中,训练集v1.0为excel表格,包含11535个query-response pair(768个unique query),分别带有差(-1)中(0)好(1)的来自三个judge的标签,需要自行对齐标签预处理。
4,435,959 Pairs / post 219,905 / responses 4,308,211 / 平均每个post,20条response 2015
点我 Neural Responding Machine for Short-Text Conversation. Lifeng Shang, Zhengdong Lu, and Hang Li. ACL 2015.
Here,更推荐后者
STC Data 来自微博,常用 单轮
点我 post 和 response 的 id 相对应,1个post30个response,需要自行预处理得到对应文本。带有1,2的标注,分别表示恰当和一般。
Retrieval_Repository
#posts 38,016
#responses 618,104
#original_pairs 618,104
Labeled_Data
#posts 422
#responses 12,402
#labeled_pairs 12,402
2013
点我 A Dataset for Research on Short-Text Conversation. Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen. EMNLP 2013.
Here
LCCC 主要微博,混合(见论文P4) 多轮
点我 json文件可以直接读取,需要自己构造正负例,单个session轮数较少
2020
点我 A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.
Here
PchatbotW 来自微博 单轮
点我 50G的 PchatbotW.release_ver 文本文件,直接读取,包含 5,319,596 个 posts 和 139,448,339 个 responses,需要自己构造检索子数据集。
2020
点我 A large-scale chinese short-text conversation dataset. Wang Y, Ke P, Zheng Y, et al. NLPCC 2020.
Here
RRS 根据 Restoration200K 数据集构建 多轮
点我 1000个sessions,每个10个candidates包含1个正例9个负例。txt文件直接读取处理即可。
2021
点我 Exploring Dense Retrieval for Dialogue Response Selection[J]. Lan T, Cai D, Wang Y, et al. arXiv preprint arXiv:2110.06612, 2021.
Here
小黄鸡 原人人网项目语料 单轮
点我 包含分词和未分词版本,需要预处理
~45w / / Here
青云语料 来自聊天机器人交流群 单轮
点我 csv文件,post和resp用 '|' 分隔,需要预处理
~11w / / Here
贴吧语料 来自贴吧回帖 多轮
点我 文本文件,post和resp用 \t 分隔,包含305w个单轮,需要自己恢复成多轮和构造对应数据
~305w (单轮) / / Here



References & Useful Links:

[1] Dialogue Research-Tencent AI Lab
[2] Baidu AI Dataset
[3] Dialogue datasets
[4] candlewill/Dialog_Corpus
[5] codemayq/chinese_chatbot_corpus
[6] EVASHINJI/Dialog-Datasets

ENJOY.