deepseek-ai/DeepSeek-LLM

AlignBench测评结果复现求助

FoolMark opened this issue · 2 comments

注意到你们的模型在alignbench上的sota表现于是尝试复现了一下

  • 使用 HuggingFace放出的 67B-Chat模型 (是否对应Tech Report中的DPO版本?)
  • Tech Report 中的结果是基于 GPT4的测评结果在6.69
  • 我这边自测后上传到Alignben用他们那个CritiqueLLM测评在 5.68,如下
模型名称,专业能力,中文理解,基本任务,数学计算,文本写作,综合问答,角色扮演,逻辑推理,中文推理,中文语言,总分
deepseek67b,6.870967741935484,6.086206896551724,6.661764705882353,4.901785714285714,6.613333333333333,7.394736842105263,6.431034482758621,4.478260869565218,4.690023291925466,6.676340667094462,5.683181979509964

我的认知里这个应该是低于预期的(虽然没有控制变量), 我推测大概是生成过程的问题, 我这边简单参考了huggingface上提供的例子写的generate过程如下,大概就按照官方的setting改了temperature参数,其他都是default

       question = sample['question']
        temperature = sample['temperature']
        messages = [
            {
                "role": "user",
                "content": question
            }
        ]
        input_tensor = self.tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")
        outputs = self.model.generate(input_tensor.to(self.model.device), temperature=temperature,max_new_tokens=2048)
        answer = self.tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)
        return answer

请问如果要复现tech report中相近的精度,有没有更正确的template? 谢谢!

你好,我们只用过GPT-4 score + VLLM推理的结果。#35 具体的输出可以在这里面看到。你用huggingface的方法看上去没有问题。

感谢回复,这里也repo一下,拿你提供的结果上传测评,score是在5.90左右
download.csv

目前看来AlignBench官方提供的CritiqueLLM 模型在高分段可能和GPT4的一致性没有这么高,感觉还是以GPT4的得分为准比较妥当