您的实验中增量预训练选择starcoder基模型，如果选择code llama2-7b基模型，请问有做过实验对比吗？

Question

您的实验中增量预训练选择starcoder基模型，如果选择code llama2-7b基模型，请问有做过实验对比吗？

Closed this issue 3 months ago · 3 comments

dshwei commented 5 months ago

text2SQL ,我选择code llama2 -7b 先做增量预训练，然后SFT的效果还不如直接选择code llama2-7b 做SFT的模型效果.请问您有没有做过这方面的实验？

Answer 1 · 2024-04-26T07:35:07.000Z

请问在做完增量预训练之后有没有对模型进行评估？
在HumanEval和 MBPP benchmark 上

Answer 2 · 2024-05-31T03:25:07.000Z

text2SQL ,我选择code llama2 -7b 先做增量预训练，然后SFT的效果还不如直接选择code llama2-7b 做SFT的模型效果.请问您有没有做过这方面的实验？

我们没有在code llama上进行过增量预训练，但我后来在llama2和deepseek-coder上都做过增量预训练，发现llama2的效果提升比较明显，但是deepseek-coder效果提升不太明显（大概1-2个点的提升）。我认为这可能与基座模型本身的text2sql能力有关。llama2本身能力太差，因此加了增量预训练之后text2sql能力提升的很多；但是deepseek-coder本身text2sql能力就极强，这时候可能增量预训练带来的性能收益并不高。

Answer 3 · 2024-05-31T03:26:08.000Z

请问在做完增量预训练之后有没有对模型进行评估？在HumanEval和 MBPP benchmark 上

我们不需要CodeS在除了text2sql之外的其他任务上通用，因此没有在HumanEval和 MBPP benchmark上进行评估。