/AI_Chinese_DataSet_KnowledgeDAO

供AI训练的中文数据集(持续更新。。。)与AI公司图谱,目前的数据集餐饮行业8000问,百度知道,Alpaca中文数据集,计算机领域数据集,Vicuna数据集,RedPajama数据集,Wikipedia中文词条数据集,网站论坛问答数据集

Primary LanguageJupyter NotebookMIT LicenseMIT

KnowledgeDAO

供AI训练的中文数据集(持续更新。。。),欢迎各位提供数据集线索或爬虫算法~~

为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了知识岛(KnowledgeDAO)项目,希望借助大家的力量推进中文AI数据集的建设。

数据、算法和算力,是AI发展的三大基石,其中数据的质量对模型最终性能至关重要。然而,从Hugging Face上的模型数据集数量来看,5W多的数据集中,英语的占比超过90%,优质中文数据少之又少。

高质量数据集的获取花费巨大,我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定技术基础的网友们献上自己的力量。

如果您有意向参与此项目,我们将不胜感激。知识岛需要您的帮助,哪怕是一颗star,或者是在Issues提供数据来源,抑或加入QQ群讨论或围观,也是我们不断更新的动力,感谢各位!

知识岛AI行业图谱(持续更新中,求Star...)

整理国内外知名公司的AI模型(包括名称、价格、是否开源、上下文窗口等信息)、战略部署、AI产品、公司信息等, 点击查看

欢迎Issue提出修改建议,或加入知识岛QQ群 916663510 交流申请编辑权限。

知识岛数据集(持续更新中,求Star...)

注意:所有压缩文件的解压密码均为知识岛QQ群号。

大的数据集会被拆分成小的json文件统一放到一个文件夹里,jsonl文件可以逐行读取。


序号 数据集名称 简介 Token数 汉字数 下载地址
1 餐饮行业8000问 GPT3.5整理的2022年和2023年餐饮行业报告与行业白皮书 1.3M 680,000 Github
2 百度知道 百度知道的帖子(2017年的数据整理),共211741条问答对 42M 21,103,292 百度网盘
3 Alpaca中文数据集 使用SeamlessM4T + Kaggle线上部署的方式翻译 7.8M 3,930,639 Github
4 计算机领域数据集 分为标签版和不含标签版,共20443条问答对 12M 6,036,955 百度网盘
5 Vicuna数据集 Chinese-Vicuna中文数据集 177.7M 88,848,744 百度网盘
6 RedPajama数据集 StackChange数据集(翻译中...) 20B
7 Wikipedia中文词条数据集 包含名词、人物、地名等维基百科中文词条介绍(2019年的数据整理) 683.6M 341,816,586 百度网盘
8 网站论坛问答 某网站的论坛问答整理(2019年的数据整理),共4041877条问答对 1.85B 924,856,115 百度网盘

知识岛项目参与方式

QQ群:916663510

知识岛社区文档: https://docs.qq.com/aio/DVXZ6d3V6T2lYaENP?p=0Tv6BON3xXocBIBQ629PMO。

Dodo平台:https://imdodo.com/s/209426?inv=4RL32 (主要看中了dodo类似于discord的在线语音功能以及积分系统,可以用来量化成员的贡献)

Hugging Face: https://huggingface.co/datasets/LIUshu123/knowledgeDAO (已停止同步)

知识岛需要的人

作为知识岛的发起者,很惭愧我不是专业的技术人员,只会简单的代码(不懂的请教项目上的大神以及GPT),因此,知识岛需要的人:

1、愿意分享行业经验的伙伴,共同参与AI行业专家的模型训练;

2、拥有IT技术的伙伴,为社区的发展添砖加瓦;

3、想要参与社区运营的伙伴,为社区稳步发展保驾护航;

4、天使投资者,看好知识岛,为知识岛的建设提供资金支持;

5、热心的参与者,参与知识岛社群规则建立,为社区的良性发展出谋划策。

训练效果

ChatGPT3.5 + LangChain + 餐饮行业8000问之后的训练效果(上面是原生的GPT3.5,下面是加上了餐饮行业8000问的效果) Weixin Image_20230814133553