供AI训练的中文数据集(持续更新。。。),欢迎各位提供数据集线索或爬虫算法~~
为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了知识岛(KnowledgeDAO)项目,希望借助大家的力量推进中文AI数据集的建设。
数据、算法和算力,是AI发展的三大基石,其中数据的质量对模型最终性能至关重要。然而,从Hugging Face上的模型数据集数量来看,5W多的数据集中,英语的占比超过90%,优质中文数据少之又少。
高质量数据集的获取花费巨大,我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定技术基础的网友们献上自己的力量。
如果您有意向参与此项目,我们将不胜感激。知识岛需要您的帮助,哪怕是一颗star
,或者是在Issues提供数据来源,抑或加入QQ群讨论或围观,也是我们不断更新的动力,感谢各位!
整理国内外知名公司的AI模型(包括名称、价格、是否开源、上下文窗口等信息)、战略部署、AI产品、公司信息等, 点击查看
欢迎Issue提出修改建议,或加入知识岛QQ群 916663510 交流申请编辑权限。
注意:所有压缩文件的解压密码均为知识岛QQ群号。
大的数据集会被拆分成小的json文件统一放到一个文件夹里,jsonl文件可以逐行读取。
序号 | 数据集名称 | 简介 | Token数 | 汉字数 | 下载地址 |
---|---|---|---|---|---|
1 | 餐饮行业8000问 | GPT3.5整理的2022年和2023年餐饮行业报告与行业白皮书 | 1.3M | 680,000 | Github |
2 | 百度知道 | 百度知道的帖子(2017年的数据整理),共211741条问答对 | 42M | 21,103,292 | 百度网盘 |
3 | Alpaca中文数据集 | 使用SeamlessM4T + Kaggle线上部署的方式翻译 | 7.8M | 3,930,639 | Github |
4 | 计算机领域数据集 | 分为标签版和不含标签版,共20443条问答对 | 12M | 6,036,955 | 百度网盘 |
5 | Vicuna数据集 | Chinese-Vicuna中文数据集 | 177.7M | 88,848,744 | 百度网盘 |
6 | RedPajama数据集 | StackChange数据集(翻译中...) | 20B | ||
7 | Wikipedia中文词条数据集 | 包含名词、人物、地名等维基百科中文词条介绍(2019年的数据整理) | 683.6M | 341,816,586 | 百度网盘 |
8 | 网站论坛问答 | 某网站的论坛问答整理(2019年的数据整理),共4041877条问答对 | 1.85B | 924,856,115 | 百度网盘 |
QQ群:916663510
知识岛社区文档: https://docs.qq.com/aio/DVXZ6d3V6T2lYaENP?p=0Tv6BON3xXocBIBQ629PMO。
Dodo平台:https://imdodo.com/s/209426?inv=4RL32 (主要看中了dodo类似于discord的在线语音功能以及积分系统,可以用来量化成员的贡献)
Hugging Face: https://huggingface.co/datasets/LIUshu123/knowledgeDAO (已停止同步)
作为知识岛的发起者,很惭愧我不是专业的技术人员,只会简单的代码(不懂的请教项目上的大神以及GPT),因此,知识岛需要的人:
1、愿意分享行业经验的伙伴,共同参与AI行业专家的模型训练;
2、拥有IT技术的伙伴,为社区的发展添砖加瓦;
3、想要参与社区运营的伙伴,为社区稳步发展保驾护航;
4、天使投资者,看好知识岛,为知识岛的建设提供资金支持;
5、热心的参与者,参与知识岛社群规则建立,为社区的良性发展出谋划策。
ChatGPT3.5 + LangChain + 餐饮行业8000问之后的训练效果(上面是原生的GPT3.5,下面是加上了餐饮行业8000问的效果)