conv-corpus-lines dgk_shooter_min.conv.zip 小黄鸡(两个合并在了一起之后 一个完整的对话为一行)
sms-lines The NUS SMS Corpus(做了点处理, 繁中转换成了简中)
wechat-content weixin_public_corpus(做了点处理, 一篇文章一行)
news.utf8.dbc.data 搜狗实验室新闻 已经越过坑,一行一条新闻
wiki_chs.strip.data 中文WIKI 已经处理过 一行是一条wiki词条
所有语料版权为 原作者所有