ceval的zero-shot测评，原生的llama-2-7b比本仓库的中文llama-2-7b效果要好

Question

ceval的zero-shot测评，原生的llama-2-7b比本仓库的中文llama-2-7b效果要好

xiaoxunlong opened this issue 6 months ago · 1 comments

xiaoxunlong commented 6 months ago

提交前必须检查以下项目

请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案。
第三方插件问题：例如llama.cpp、LangChain、text-generation-webui等，同时建议到对应的项目中查找解决方案。

问题类型

模型推理

基础模型

Chinese-LLaMA-2 (7B/13B)

操作系统

Linux

详细描述问题

ceval的zero-shot评测，原生的llama-2-7b比本仓库的中文llama-2-7b效果要好，请问作者有使用原生的llama-2-7b跑过ceval评测吗？结果是怎么样的呢？如果也是同样的的情况，请问原因可能是什么呢？

zero-shot 中文 llama-2-7b 的运行指令
python eval.py \
    --model_path hf_models/hfl/chinese-llama-2-7b/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir chinese-llama-2-7b_results

zero-shot 原生 llama-2-7b 的运行指令
python eval.py \
    --model_path llama_model/llama-2-7b-hf/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir llama-2-7b_results

依赖情况（代码类问题务必提供）

peft                      0.8.2
sentencepiece             0.2.0
torch                     1.13.1
torchaudio                0.13.1
torchvision               0.14.1
transformers              4.37.2

运行日志或截图

zero-shot 中文 llama-2-7b 结果
"All": {
    "score": 0.28083209509658247,
    "num": 1346,
    "correct": 378.0
  }

zero-shot 原生 llama-2-7b 结果
"All": {
    "score": 0.2964338781575037,
    "num": 1346,
    "correct": 399.0
  }

Answer 1 · 2024-03-05T09:55:05.000Z

经过预训练之后，不同数据集呈现出不一样的趋势，ceval降也是正常的。
进一步经过SFT之后，效果就有明显差别了。感兴趣可以自己分析分析原因。
我们在mixtral上的尝试也是类似的现象。