进一步预训练可以全靠lora吗
Closed this issue · 4 comments
ymourenya commented
提交前必须检查以下项目
- 请确保使用的是仓库最新代码(git pull)
- 已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
- 第三方插件问题:例如llama.cpp、text-generation-webui等,建议优先去对应的项目中查找解决方案。
问题类型
None
基础模型
None
操作系统
None
详细描述问题
# 请在此处粘贴运行代码(请粘贴在本代码块里)
```各位大佬好,我之前用你们发布的中文的llama2-13B用lora做了进一步预训练,代码也是咱们的,然后做下一个token预测评估,损失反而还要比你们直接公布的13B的没模型损失高,所以现在想用llama3再尝试一下,我想问问预训练在大型语料中可以用lora做吗,lora毕竟是微调手段嘛,可以考虑部分参数预训练吗,就是只开放几层参数进行训练,希望各位大佬可以解惑一下,谢谢大佬们。我llama2-13B的预训练语料大约3G多,这次可能会增加到大约20G.
### 依赖情况(代码类问题务必提供)
请在此处粘贴依赖情况(请粘贴在本代码块里)
### 运行日志或截图
请在此处粘贴运行日志(请粘贴在本代码块里)
ymourenya commented
各位大佬好,我之前用你们发布的中文的llama2-13B用lora做了进一步预训练,代码也是咱们的,
然后做下一个token预测评估,损失反而还要比你们直接公布的13B的没模型损失高,
所以现在想用llama3再尝试一下,我想问问预训练在大型语料中可以用lora做吗,
lora毕竟是微调手段嘛,可以考虑部分参数预训练吗,就是只开放几层参数进行训练,
希望各位大佬可以解惑一下,谢谢大佬们。我llama2-13B的预训练语料大约3G多,这次可能会增加到大约20G.
ymcui commented
全量训练成本较高。LoRA及其变种PEFT方法的性价比较高,同时还能缓解灾难性遗忘的问题。
至于全量训练会不会比LoRA更好,这要自己做实验了,试错成本比较高。
github-actions commented
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your consideration.
github-actions commented
Closing the issue, since no updates observed. Feel free to re-open if you need any further assistance.