nlp_chinese_corpus

这个repo用来处理我整理的中文数据集

拟定使用的数据集:

Name Description Link
小黄鸡 小黄鸡对话,我是小通就是这个数据集 小黄鸡
NUS SMS Corpus 短消息对话(翻译,繁体) NUS SMS
白鹭时代 从白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。 白鹭时代
保险行业QA语料库 该语料库包含从网站Insurance Library 收集的问题和答案,翻译成中文 保险行业语料库
chatterbot-corpus ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高 link
中文公开聊天语料库 来自Github大神的整理(包含了我整理的大部分数据集,谢谢分享!) 中文公开聊天语料库