深度学习预训练中文数据集

国内公开的中文语料太少了，可以说是寥寥无几，大厂和机构缺少语料共享精神。
训练语料的缺失给学习研究深度网络模型从业者带来困扰，获取预训练语料带来额外成本。
这份语料可以降低训练模型的成本，让学习研究者只需要关注模型结构的研究，加速我国AI进展。
该项目为国内最大的公开深度网络模型预训练中文语料，该语料可以用来训练bert模型。
该语料由多个文本语料组成，大约22G。每个文本文件中每篇文章由\r\n分开，每篇文章中每段文本由\n分开。
数据均来源于网络,仅供研究学习使用，请勿做商业用途。
阿里云下载地址：https://www.aliyundrive.com/s/xkCb7BE5uds

QQ群：617353893

503718696/deep-learning-Pre-training-Chinese-data-set

深度学习预训练中文数据集