如何在离线环境生成 tokenized_data ?
seek4self opened this issue · 1 comments
seek4self commented
该项目 tokenize_dataset_rows.py
默认需要从 https://huggingface.co/ 创建并下载数据集 datasets,迁移到离线环境应该如何生成数据集呢?
onetwo12cn commented
在 tokenize.sh 中第一行前面添加 HF_DATASETS_OFFLINE=true
环境变量可离线创建分词数据集