关于再训练压缩后的resnet50的超参数
zpc-666 opened this issue · 6 comments
zpc-666 commented
你好!你的工作很有趣!我对于再训练压缩后的resnet50的超参数设置有疑问,按照readme,岂不是epochs=300, schedule=[150, 225],这是不是有问题呢?
yuchaoli commented
感谢您的关注。
很抱歉README里面没有写出resnet50训练所需要的超参数。
关于resnet50的训练超参数请按照论文里写的设置,即epoch=120,learning_rate=1e-2, schedule=[30, 60 ,90]。
zpc-666 commented
感谢您的回复,这个疑问解决了!还有个问题想请教,就是您的cifar10上的resnet56、densenet40以及googlenet的baseline的训练超参数是多少呢,难道是和再训练压缩后模型的超参一致吗,期待您的解答,谢谢!
yuchaoli commented
对的,和压缩后模型的训练参数一致。
zpc-666 commented
嗯嗯,感谢!最后一个疑问,“torch.nn.utils.clip_grad_norm_(model.parameters(), 1)”这个梯度裁剪您是训练baseline和再训练压缩后模型时一直都使用吗,我发现去掉它对训练baseline的精度影响很大
yuchaoli commented
抱歉,关于这个细节我这边的code有点缺失,无法确认训练baseline的时候是否有使用clip grad norm。不过你可以按照效果好的那套设置来使用。
zpc-666 commented
嗯嗯,感谢您的回复,祝您生活愉快!