KnowledgeDAO

供AI训练的中文数据集（持续更新。。。），欢迎各位提供数据集线索或爬虫算法~~

为了推进中文AI的发展，促进AI技术公开化、国际化，我们成立了知识岛（KnowledgeDAO)项目，希望借助大家的力量推进中文AI数据集的建设。

数据、算法和算力，是AI发展的三大基石，其中数据的质量对模型最终性能至关重要。然而，从Hugging Face上的模型数据集数量来看，5W多的数据集中，英语的占比超过90%，优质中文数据少之又少。

高质量数据集的获取花费巨大，我们无力承担如此巨大的开销，于是需要各位有志于筹建开放获取语料，并有一定技术基础的网友们献上自己的力量。

如果您有意向参与此项目，我们将不胜感激。知识岛需要您的帮助，哪怕是一颗star，或者是在Issues提供数据来源，抑或加入QQ群讨论或围观，也是我们不断更新的动力，感谢各位!

知识岛AI行业图谱（持续更新中，求Star...）

整理国内外知名公司的AI模型（包括名称、价格、是否开源、上下文窗口等信息）、战略部署、AI产品、公司信息等，点击查看

欢迎Issue提出修改建议，或加入知识岛QQ群 916663510 交流申请编辑权限。

注意：所有压缩文件的解压密码均为知识岛QQ群号。

大的数据集会被拆分成小的json文件统一放到一个文件夹里，jsonl文件可以逐行读取。

序号	数据集名称	简介	Token数	汉字数	下载地址
1	餐饮行业8000问	GPT3.5整理的2022年和2023年餐饮行业报告与行业白皮书	1.3M	680,000	Github
2	百度知道	百度知道的帖子（2017年的数据整理），共211741条问答对	42M	21,103,292	百度网盘
3	Alpaca中文数据集	使用SeamlessM4T + Kaggle线上部署的方式翻译	7.8M	3,930,639	Github
4	计算机领域数据集	分为标签版和不含标签版，共20443条问答对	12M	6,036,955	百度网盘
5	Vicuna数据集	Chinese-Vicuna中文数据集	177.7M	88,848,744	百度网盘
6	RedPajama数据集	StackChange数据集（翻译中...)	20B
7	Wikipedia中文词条数据集	包含名词、人物、地名等维基百科中文词条介绍（2019年的数据整理）	683.6M	341,816,586	百度网盘
8	网站论坛问答	某网站的论坛问答整理(2019年的数据整理),共4041877条问答对	1.85B	924,856,115	百度网盘

QQ群：916663510

Dodo平台：https://imdodo.com/s/209426?inv=4RL32 （主要看中了dodo类似于discord的在线语音功能以及积分系统，可以用来量化成员的贡献）

作为知识岛的发起者，很惭愧我不是专业的技术人员，只会简单的代码（不懂的请教项目上的大神以及GPT），因此，知识岛需要的人：

1、愿意分享行业经验的伙伴，共同参与AI行业专家的模型训练；

2、拥有IT技术的伙伴，为社区的发展添砖加瓦；

3、想要参与社区运营的伙伴，为社区稳步发展保驾护航；

4、天使投资者，看好知识岛，为知识岛的建设提供资金支持；

5、热心的参与者，参与知识岛社群规则建立，为社区的良性发展出谋划策。

ChatGPT3.5 + LangChain + 餐饮行业8000问之后的训练效果（上面是原生的GPT3.5，下面是加上了餐饮行业8000问的效果）