beyondguo/LLM-Tuning

如何在离线环境生成 tokenized_data ?

seek4self opened this issue · 1 comments

该项目 tokenize_dataset_rows.py 默认需要从 https://huggingface.co/ 创建并下载数据集 datasets,迁移到离线环境应该如何生成数据集呢?

tokenize.sh 中第一行前面添加 HF_DATASETS_OFFLINE=true 环境变量可离线创建分词数据集