推荐官方的 huggingface-cli 命令行工具
其实网络快、稳的话,随便哪种方法都挺好,然而结合国内的网络环境,断点续传、多线程下载等特性还是非常有必要的,否则动辄断掉重来很浪费时间。基于这个考虑,对各类方法做个总结和排序:
方法类别 | 推荐程度 | 优点 | 缺点 | |
---|---|---|---|---|
基于URL | 浏览器网页下载 | ⭐⭐⭐ | 通用性好 | 手动麻烦/无多线程 |
多线程下载器 | ⭐⭐⭐⭐ | 通用性好 | 手动麻烦 | |
CLI工具 | git clone 命令 |
⭐⭐ | 简单 | 无断点续传/冗余文件/无多线程 |
专用CLI工具 | huggingface-cli +hf_transfer |
⭐⭐⭐ | 官方下载工具链,功能最全 | 无进度条/容错性低 |
huggingface-cli |
⭐⭐⭐⭐⭐ | 官方下载工具 | 不支持多线程 | |
Python方法 | snapshot_download |
⭐⭐⭐ | 官方支持,功能全 | 脚本复杂/无多线程 |
from_pretrained |
⭐ | 官方支持,简单 | 不方便存储,功能不全 | |
hf_hub_download |
⭐ | 官方支持 | 不支持全量下载/无多线程 |
使用方法:
工具同样支持设置镜像端点的环境变量:
需要给hfd.sh
添加执行权限
chmod +x ./hfd.sh
export HF_ENDPOINT="https://hf-mirror.com"
基本命令:
./hfd.sh Qwen/Qwen-1_8B-Chat --tool aria2c -x 4
如果没有安装 aria2,则可以默认用 wget:
./hfd.sh Qwen/Qwen-1_8B-Chat
- 下载数据集
./hfd.sh