hiyouga/LLaMA-Factory

请问量化校准数据c4_demo.json的生成有什么要求的呢?

Closed this issue · 5 comments

Reminder

  • I have read the README and searched the existing issues.

Reproduction

请问量化校准数据c4_demo.json的生成有什么要求的呢?

目前看到这些评论,但还有些问题不太清楚
#2754 (comment)
#2754 (comment)

1、校准数据就是用训练数据生成的?
2、用alpaca格式的训练是如何转成c4_demo.json的格式?是instruction+input => text ?
3、校准数据量应该不用太多吧?

Expected behavior

No response

System Info

No response

Others

No response

数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可

数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可

那第二个问题呢?
2、用alpaca格式的训练是如何转成c4_demo.json的格式?是instruction+input => text ?还是instruction+input+ouput=>text?

@hiyouga

后者

数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可

数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可

我用了128、256去量化导出都会卡住在[INFO|configuration_utils.py:789] @hiyouga

我用一个1w的校准数据就不卡了,正常导出

image