Llama-1 |
Meta |
包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模 |
1.4万亿 |
2048个A100 GPU |
中英文 |
Alpaca |
Stanford |
70亿 |
52k条问答指令数据,指令数据来源于OpenAI的API返回结果 |
500美元数据成本+100美元训练成本 |
中英文 |
Vicuna |
UC Berkeley, CMU, Stanford, UCSD and MBZUAI |
130亿 |
70k条问答指令数据,指令数据来源于用户分享出来的对话记录 |
300美元 |
中英文 |
Koala |
UC Berkeley |
130亿 |
500k条问答直录功能数据,指令数据来源于网上公开数据集 |
在公共云计算平台上,预期训练成本不超过100美元。一台 Nvidia DGX 服务器与8个A100 GPU,需要6个小时训练完成2个epochs。 |
中英文 |
Llama-2 |
Meta |
70亿、130亿和700亿参数规模 |
2万亿 |
A100集群 |
中英文 |
Bloom |
BigScience |
1760亿 |
3660亿 |
384 80GB A100 GPUs 训练3.5个月数据来源 |
|
Bloomz |
|
1760亿 |
|
|
|
BLOOMChat |
SambaNova and Together |
1760亿 |
OIG from OpenChatKit , Dolly 2.0, and OASST1 datasets |
基于Bloom在指定数据集上做fine tune |
中英文 |
StableLM |
Stability AI |
30亿、70亿、150亿和300亿 |
1.5万亿 |
未公布 |
英文 |
Dolly 2.0 |
Databricks |
120亿 |
15k条问答指令数据,指令数据来源于Databricks员工 |
不到30美元 |
|
ChatGLM/ChatGLM2 |
清华大学KEG 实验室和智谱AI |
60亿和1300亿共2种参数规模 |
4000亿左右,中文和英文token各2000亿 |
数百万人民币 |
中英文 |
鹏程·盘古α |
鹏程实验室、华为 |
26亿、130亿和2000亿共3种参数规模 |
2500亿 |
2048 块昇腾处理器 |
中英文 |
MOSS |
复旦 |
160亿参数 |
约7000亿中英文 |
未公布。整体技术偏弱一些,暂时无法和ChatGLM相比。 |
中英文 |
MPT |
Mosaic ML |
70亿参数 |
1万亿 |
20万美金,训练9.5天,详细介绍 |
|
baichuan-7B |
Baichuan-Inc |
70亿参数 |
1.2万亿 |
千卡A800集群,成本未知 |
中英文 |
baichuan-13B |
Baichuan-Inc |
130亿参数 |
1.4万亿 |
千卡A800集群,成本未知 |
中英文 |