RUCKBReasoning/codes

few_shot和sft的参数选择

Closed this issue · 4 comments

感谢您的开源分享,我有一个问题想问您下哈。

few_shot里面 --table_num 5 --column_num 6,而sft里面--table_num 6 --column_num 10,这里面您是怎么考虑的,few_shot如果换成6和10效果会更好吗?

谢谢~

few_shot如果换成6和10会导致上下文特别长。

因此这里为了多放一些examples在few-shot的上下文,选择了小一点的table_num和column_num。

好的,感谢!还想问一下pretrain和sft的时候loss最后大概多少呀

sft最后的loss很小,大概在e-2这个量级。

pretrain最后的loss还挺大的,应该是0.8几,不过loss曲线是呈现下降状态,说明在正常收敛。

好的,感谢!