Closed this issue a year ago · 2 comments
WizardMath-7B-V1.0,WizardMath-13B-V1.0的embedding层维度是[32001,4096],LLAMA2的embedding层维度是[32000,4096]。 在做处理的时候是跳过了embedding层还是有其他处理吗?
对于SFT模型(例如WizardMath-7B-V1.0)和Pre-Trained的基座模型(例如LLAMA2),我们首先对其embedding的维度进行对齐(详见inference_llms_instruct_math_code.py代码105行至126行),而后再进行embedding的差值计算等操作。
好的,非常感谢!