ymcui/Chinese-LLaMA-Alpaca-2

单机多卡训练,加载数据集时卡住,大概是卡在training_args.main_process_first(desc="dataset map tokenization and grouping"),请问如何解决,谢谢

Wuhaotiantiantian opened this issue · 0 comments

提交前必须检查以下项目

  • 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。
  • 我已阅读项目文档FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
  • 第三方插件问题:例如llama.cppLangChaintext-generation-webui等,同时建议到对应的项目中查找解决方案。

问题类型

模型训练与精调

基础模型

Chinese-LLaMA-2-16K (7B/13B)

操作系统

Linux

详细描述问题

# 请在此处粘贴运行代码(请粘贴在本代码块里)

单机多卡预训练和微调模型都会卡在加载数据集那里。
大概是training_args.main_process_first(desc="dataset map tokenization and grouping")这个函数无法退出,可能是同步时出了问题?请问怎么解决这个问题呢,谢谢

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

bitsandbytes 0.41.1
peft 0.3.0
sentencepiece 0.1.99
torch 2.0.1
torchaudio 2.0.2
torchvision 0.15.2
transformers 4.35.0

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)

[INFO|tokenization_utils_base.py:2020] 2024-06-20 20:13:34,675 >> loading file tokenizer.model
[INFO|tokenization_utils_base.py:2020] 2024-06-20 20:13:34,675 >> loading file added_tokens.json
[INFO|tokenization_utils_base.py:2020] 2024-06-20 20:13:34,676 >> loading file special_tokens_map.json
[INFO|tokenization_utils_base.py:2020] 2024-06-20 20:13:34,676 >> loading file tokenizer_config.json
[INFO|tokenization_utils_base.py:2020] 2024-06-20 20:13:34,676 >> loading file tokenizer.json
06/20/2024 20:13:34 - WARNING - main - Process rank: 1, device: cuda:1, n_gpu: 1distributed training: True, 16-bits training: True
pt_sample_data.txt
pt_sample_data.txt
开始处理数据集 /data1/haotianwu/data-llama2-debug/data/pt_sample_data.txt 缓存 /data1/haotianwu/data-llama2-debug/cache/pt_sample_data_1024
06/20/2024 20:13:35 - INFO - main - training datasets-pt_sample_data has been loaded from disk
Caching indices mapping at /data1/haotianwu/data-llama2-debug/cache/pt_sample_data_1024/train/cache-356476d6d526cf25.arrow
06/20/2024 20:13:35 - INFO - datasets.arrow_dataset - Caching indices mapping at /data1/haotianwu/data-llama2-debug/cache/pt_sample_data_1024/train/cache-356476d6d526cf25.arrow
Caching indices mapping at /data1/haotianwu/data-llama2-debug/cache/pt_sample_data_1024/train/cache-9a061269a4669b1e.arrow
06/20/2024 20:13:35 - INFO - datasets.arrow_dataset - Caching indices mapping at /data1/haotianwu/data-llama2-debug/cache/pt_sample_data_1024/train/cache-9a061269a4669b1e.arrow