ymcui/Chinese-LLaMA-Alpaca-2

ceval的zero-shot测评,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好

xiaoxunlong opened this issue · 1 comments

提交前必须检查以下项目

  • 请确保使用的是仓库最新代码(git pull),一些问题已被解决和修复。
  • 我已阅读项目文档FAQ章节并且已在Issue中对问题进行了搜索,没有找到相似问题和解决方案。
  • 第三方插件问题:例如llama.cppLangChaintext-generation-webui等,同时建议到对应的项目中查找解决方案。

问题类型

模型推理

基础模型

Chinese-LLaMA-2 (7B/13B)

操作系统

Linux

详细描述问题

ceval的zero-shot评测,原生的llama-2-7b比本仓库的中文llama-2-7b效果要好,请问作者有使用原生的llama-2-7b跑过ceval评测吗?结果是怎么样的呢?如果也是同样的的情况,请问原因可能是什么呢?

zero-shot 中文 llama-2-7b 的运行指令
python eval.py \
    --model_path hf_models/hfl/chinese-llama-2-7b/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir chinese-llama-2-7b_results

zero-shot 原生 llama-2-7b 的运行指令
python eval.py \
    --model_path llama_model/llama-2-7b-hf/ \
    --cot False \
    --few_shot False \
    --with_prompt False \
    --constrained_decoding True \
    --temperature 0.2 \
    --n_times 1 \
    --ntrain 5 \
    --do_save_csv False \
    --do_test False \
    --output_dir llama-2-7b_results

依赖情况(代码类问题务必提供)

peft                      0.8.2
sentencepiece             0.2.0
torch                     1.13.1
torchaudio                0.13.1
torchvision               0.14.1
transformers              4.37.2

运行日志或截图

zero-shot 中文 llama-2-7b 结果
"All": {
    "score": 0.28083209509658247,
    "num": 1346,
    "correct": 378.0
  }

zero-shot 原生 llama-2-7b 结果
"All": {
    "score": 0.2964338781575037,
    "num": 1346,
    "correct": 399.0
  }

经过预训练之后,不同数据集呈现出不一样的趋势,ceval降也是正常的。
进一步经过SFT之后,效果就有明显差别了。感兴趣可以自己分析分析原因。
我们在mixtral上的尝试也是类似的现象。