nlp_chinese_corpus
这个repo用来处理我整理的中文数据集
拟定使用的数据集:
Name | Description | Link |
---|---|---|
小黄鸡 | 小黄鸡对话,我是小通就是这个数据集 | 小黄鸡 |
NUS SMS Corpus | 短消息对话(翻译,繁体) | NUS SMS |
白鹭时代 | 从白鹭时代官方论坛问答板块10,000+ 问题中,选择被标注了“最佳答案”的纪录汇总而成。 | 白鹭时代 |
保险行业QA语料库 | 该语料库包含从网站Insurance Library 收集的问题和答案,翻译成中文 | 保险行业语料库 |
chatterbot-corpus | ChatterBot聊天引擎提供的一点基本中文聊天语料,量很少,但质量比较高 | link |
中文公开聊天语料库 | 来自Github大神的整理(包含了我整理的大部分数据集,谢谢分享!) | 中文公开聊天语料库 |