name | link | license | tip | number |
---|---|---|---|---|
zhihu_rlhf_3k | zhihu_rlhf_3k | cc-by-2.0 | 3k+条基于知乎问答的人类偏好数据集,每个问题下给出了一对不同赞数的回答 | 3k |
huozi_rlhf_data | huozi_rlhf_data | Apache 2.0 | 16.9k 人工标注偏好数据(回复来自huozi-1.0) | 16.9k |
chatbot_arena_conversations | chatbot_arena_conversations | cc | This dataset contains 33K cleaned conversations with pairwise human preferences. It is collected from 13K unique IP addresses on the Chatbot Arena from April to June 2023. Each sample includes a question ID, two model names, their full conversation text in OpenAI API JSON format, the user vote, the anonymized user ID, the detected language tag, the OpenAI moderation API tag, the additional toxic tag, and the timestamp | 33k |
name | link | license | tip | number |
---|---|---|---|---|
ruozhiba | ruozhiba | Apache 2.0 | 受COIG-CQIA启发,构建类似数据集,但答案风格相对更简洁。弱智吧精选问题数据来自github提供的疑问句,调用GPT-4获取答案,并过滤掉明显拒答的回复。 | 1.5k |
COIG-CQIA | COIG-CQIA | Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。COIG-CQIA以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。 | 46K | |
OL-CC | OL-CC | Apache 2.0 | 以众包方式、人工生成的开源中文对话指令集,包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富,包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、 闲聊对话、逻辑&数学等任务。 | 11.6K |
name | link | license | tip | number |
---|---|---|---|---|
firefly-train-1.1M | Firefly | none | 23个常见中文数据集上由人工书写若干指令模板构造 | 110 万 |
pCLUE | pCLUE | none | 单分类tnews/单分类iflytek/自然语言推理ocnli/语义匹配afqmc/指代消解-cluewsc2020/关键词识别-csl/阅读理解-自由式c3/阅读理解-抽取式cmrc2018/阅读理解-成语填空chid 共9个数据集,73个prompt 转换而来 | 120 万 |
xP3mt_zh | xP3mt-zh | apache-2.0 | 原始xP3(英语)通过翻译得到的中文数据集 | 3571636 |
name | link | license | tip | number |
---|---|---|---|---|
alpaca_gpt4_data_zh_52k | GPT-4-LLM | Apache 2.0 | generated by GPT-4 using Chinese prompts translated from Alpaca by ChatGPT | 52k |
alpaca_data_zh_51k | Chinese-LLaMA-Alpaca-data | Apache 2.0 | 中文Alpaca数据,包含51k个从ChatGPT (gpt-3.5-turbo)爬取的指令数据。 | 51k |
Belle | BELLE | gpl-3.0 | 参考Stanford Alpaca 生成的中文数据集 | 50万/100万/200万/1000万 |
alpaca_chinese_dataset | alpaca_chinese_dataset | MIT | 人工校验了21K 左右的alpaca 翻译数据集,并增加了许多中文特色数据集 | > 21 K |
COIG | COIG | Apache 2.0/MIT/CC-BY-SA-4.0 | 191,191 | |
MOSS | cc-by-4.0 | |||
HC3-Chinese | HC3-Chinese | cc-by-sa-4.0 | 人类-ChatGPT 对比语料 | 12853 |
RefGPT-Fact-zh | RefGPT-fact-zh-50K | Apache 2.0 | RefGPT-Fact 是一个包含 10 万个关于事实知识的多轮对话的数据集,其中有 5 万个英语和 5 万个中文。 英文版以英文维基百科为参考,中文版则以常用的中文在线百科全书网站百度百科为参考。 | 50k |
Safety-Prompts | Safety-Prompts | Apache 2.0 | 该数据集包括100k条中文安全场景的prompts和ChatGPT的回复,涵盖了各类安全场景和指令攻击,可以用于全面评测和提升模型的安全性,也可以用于增强模型关于安全方面的知识,对齐模型输出和人类价值观。 | 100k |