yule-BUAA/MergeLM

alpaca eval 评测问题

Closed this issue · 6 comments

您好,请问评测一次alpaca eval数据花费是多少$?

btw还有一个问题就是参考代码,假设现在merge instruct, math, code三个模型,会保存三种模型,每一种分别以instruct, math, code为基座进行合并,然后用这三个在分别在三个领域的数据集进行测试,请问论文中的实验数据是这样得来的吗?

您好请问可以加您一个好友吗?我在环境配置方面出现了一点问题,想向您请教一下

我们的这篇工作使用的是chatgpt_fn进行的评测,所以花费相对较少。虽然没有详细统计过每次的花费,但是估算下来,评测一次alpaca eval大约花费2.5美元左右。

btw还有一个问题就是参考代码,假设现在merge instruct, math, code三个模型,会保存三种模型,每一种分别以instruct, math, code为基座进行合并,然后用这三个在分别在三个领域的数据集进行测试,请问论文中的实验数据是这样得来的吗?

我们的代码针对三个任务保存三个模型是为了解决不同模型的tokenizer不一致的问题。但是这三个模型的权重是完全一致的(经过一次合并操作得到),仅仅是tokenizer上分别保存了instruct, math, code三个模型的tokenizer。一个更好的实现方式是仅保存一份模型权重,额外保存三个tokenizer,我们最新的MergeLLM中就是这样实现的。

还有一个问题就是论文中表格1中WizardLM-13B在human eval和mbpp数据集上的效果比llama-2-13b-codealpaca 效果好,正常不应该是效果比较差吗?

还有一个问题就是论文中表格1中WizardLM-13B在human eval和mbpp数据集上的效果比llama-2-13b-codealpaca 效果好,正常不应该是效果比较差吗?

可能的原因是llama-2-13b-codealpaca没有在代码任务上进行充分的微调而导致代码任务上的效果并不太好,我们在论文的第7页分析中也提到了这一点;
我们在实验中之所以选择llama-2-13b-codealpaca是因为它是少数的基于llama-2-13b做SFT的开源代码模型,和WizardLM-13B与WizardMath-13B同源;这也是即使WizardCoder-Python-13B代码上效果更好,但没有被选择用于model merging实验的原因。