请问上下文16k模型的微调训练是否使用了8bit量化
Junpliu opened this issue · 3 comments
Junpliu commented
提交前必须检查以下项目
- 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。
- 我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
- 第三方插件问题:例如llama.cpp、LangChain、text-generation-webui等,同时建议到对应的项目中查找解决方案。
问题类型
模型训练与精调
基础模型
Chinese-LLaMA-2-16K (7B/13B)
操作系统
Linux
详细描述问题
https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/sft_scripts_zh
这个脚本的max_seq_length只有512,请问16k模型是用这个脚本训练的吗?
依赖情况(代码类问题务必提供)
# 请在此处粘贴依赖情况(请粘贴在本代码块里)
运行日志或截图
# 请在此处粘贴运行日志(请粘贴在本代码块里)
iMountTai commented
是当前脚本训练的。
Junpliu commented
是当前脚本训练的。
请问是只需要把model_input_length改成16k吗,需要使用training_args.load_in_kbits=4 / 8 量化选项吗
iMountTai commented
不需要,但是使用了deepspeed zero3、flash-attention 2等策略。另外还要根据你的方案初始化你的模型,比如PI方法要先做线性插值。