请教一下 run_pt.sh 和 run_sft.sh 可以训练除了llma2以外的模型的吗 比如我下面贴的
Mr1994 opened this issue · 1 comments
Mr1994 commented
提交前必须检查以下项目
- 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。
- 我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
- 第三方插件问题:例如llama.cpp、LangChain、text-generation-webui等,同时建议到对应的项目中查找解决方案。
问题类型
模型训练与精调
基础模型
None
操作系统
Linux
详细描述问题
https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct/tree/main
我们现在想训练另外一个模型 那么 run_pt和run_sft.sh 可以训练这个模型吗
依赖情况(代码类问题务必提供)
# 请在此处粘贴依赖情况(请粘贴在本代码块里)
运行日志或截图
# 请在此处粘贴运行日志(请粘贴在本代码块里)
ymcui commented
原则上llama-2结构(不涉及GQA)的都可以训练。至于你说的模型是否是llama-2结构,请自行了解。
另外,你直接用对应模型提供的精调脚本不是更好吗?