yule-BUAA/MergeLM

关于delta权重

Closed this issue · 2 comments

最近也在搞merge,关注到你们的论文,很好的工作,有个疑问还请解答一下
看代码https://github.com/yule-BUAA/MergeLM/blob/main/inference_llms_instruct_math_code.py,输入如果是finetuned_weightcreate_llm函数里似乎没有计算delta,直接是在微调模型的上面进行DARE?

感谢对我们工作的关注!

你的理解是对的,如果设置weight_format的取值为finetuned_weight,就代表直接对于微调模型的参数进行DARE操作,这样的效果并不好,我们也在论文4.7章节中对这个设置进行了实验。

DARE适用的条件是weight_format设置为delta_weight,在delta参数上进行drop和rescale。

感谢对我们工作的关注!

你的理解是对的,如果设置weight_format的取值为finetuned_weight,就代表直接对于微调模型的参数进行DARE操作,这样的效果并不好,我们也在论文4.7章节中对这个设置进行了实验。

DARE适用的条件是weight_format设置为delta_weight,在delta参数上进行drop和rescale。

谢谢解答,我理解错这个参数的意义了,刚看了再taskvector里计算的delta