请问量化校准数据c4_demo.json的生成有什么要求的呢?
Closed this issue · 5 comments
maiqingqiang commented
Reminder
- I have read the README and searched the existing issues.
Reproduction
请问量化校准数据c4_demo.json的生成有什么要求的呢?
目前看到这些评论,但还有些问题不太清楚
#2754 (comment)
#2754 (comment)
1、校准数据就是用训练数据生成的?
2、用alpaca格式的训练是如何转成c4_demo.json的格式?是instruction+input => text ?
3、校准数据量应该不用太多吧?
Expected behavior
No response
System Info
No response
Others
No response
hiyouga commented
数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可
maiqingqiang commented
数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可
那第二个问题呢?
2、用alpaca格式的训练是如何转成c4_demo.json的格式?是instruction+input => text ?还是instruction+input+ouput=>text?
hiyouga commented
后者
maiqingqiang commented
maiqingqiang commented
数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可
数据不会太多,我们默认只会用 128 个样本,格式和 c4_demo 文件相同即可
我用了128、256去量化导出都会卡住在[INFO|configuration_utils.py:789] @hiyouga
我用一个1w的校准数据就不卡了,正常导出