请问上下文16k模型的微调训练是否使用了8bit量化

Question

Junpliu opened this issue 9 months ago · 3 comments

模型训练与精调

Chinese-LLaMA-2-16K (7B/13B)

Linux

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/sft_scripts_zh

这个脚本的max_seq_length只有512，请问16k模型是用这个脚本训练的吗？

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

# 请在此处粘贴运行日志（请粘贴在本代码块里）

Answer 1 · 2023-12-12T04:56:24.000Z

是当前脚本训练的。

Answer 2 · 2023-12-12T09:49:41.000Z

是当前脚本训练的。

请问是只需要把model_input_length改成16k吗，需要使用training_args.load_in_kbits=4 / 8 量化选项吗

Answer 3 · 2023-12-12T14:23:02.000Z

不需要，但是使用了deepspeed zero3、flash-attention 2等策略。另外还要根据你的方案初始化你的模型，比如PI方法要先做线性插值。