RUCKBReasoning/codes

您的实验中增量预训练选择starcoder基模型,如果选择code llama2-7b基模型,请问有做过实验对比吗?

Closed this issue · 3 comments

text2SQL ,我选择code llama2 -7b 先做增量预训练,然后SFT的效果还不如直接选择code llama2-7b 做SFT的模型效果.请问您有没有做过这方面的实验?

请问在做完增量预训练之后有没有对模型进行评估?
在HumanEval和 MBPP benchmark 上

text2SQL ,我选择code llama2 -7b 先做增量预训练,然后SFT的效果还不如直接选择code llama2-7b 做SFT的模型效果.请问您有没有做过这方面的实验?

我们没有在code llama上进行过增量预训练,但我后来在llama2和deepseek-coder上都做过增量预训练,发现llama2的效果提升比较明显,但是deepseek-coder效果提升不太明显(大概1-2个点的提升)。我认为这可能与基座模型本身的text2sql能力有关。llama2本身能力太差,因此加了增量预训练之后text2sql能力提升的很多;但是deepseek-coder本身text2sql能力就极强,这时候可能增量预训练带来的性能收益并不高。

请问在做完增量预训练之后有没有对模型进行评估? 在HumanEval和 MBPP benchmark 上

我们不需要CodeS在除了text2sql之外的其他任务上通用,因此没有在HumanEval和 MBPP benchmark上进行评估。