国内公开的中文语料太少了,可以说是寥寥无几,大厂和机构缺少语料共享精神。
训练语料的缺失给学习研究深度网络模型从业者带来困扰,获取预训练语料带来额外成本。
这份语料可以降低训练模型的成本,让学习研究者只需要关注模型结构的研究,加速我国AI进展。
该项目为国内最大的公开深度网络模型预训练中文语料,该语料可以用来训练bert模型。
该语料由多个文本语料组成,大约22G。每个文本文件中每篇文章由\r\n分开,每篇文章中每段文本由\n分开。
数据均来源于网络,仅供研究学习使用,请勿做商业用途。
阿里云下载地址:https://www.aliyundrive.com/s/xkCb7BE5uds
QQ群:617353893