关于再训练压缩后的resnet50的超参数

Question

zpc-666 opened this issue 3 years ago · 6 comments

你好！你的工作很有趣！我对于再训练压缩后的resnet50的超参数设置有疑问，按照readme，岂不是epochs=300, schedule=[150, 225],这是不是有问题呢？

Answer 1 · 2022-06-01T06:29:43.000Z

感谢您的关注。
很抱歉README里面没有写出resnet50训练所需要的超参数。
关于resnet50的训练超参数请按照论文里写的设置，即epoch=120，learning_rate=1e-2, schedule=[30, 60 ,90]。

Answer 2 · 2022-06-01T06:34:24.000Z

感谢您的回复，这个疑问解决了！还有个问题想请教，就是您的cifar10上的resnet56、densenet40以及googlenet的baseline的训练超参数是多少呢，难道是和再训练压缩后模型的超参一致吗，期待您的解答，谢谢！

Answer 3 · 2022-06-01T06:36:01.000Z

对的，和压缩后模型的训练参数一致。

Answer 4 · 2022-06-01T06:40:00.000Z

嗯嗯，感谢！最后一个疑问，“torch.nn.utils.clip_grad_norm_(model.parameters(), 1)”这个梯度裁剪您是训练baseline和再训练压缩后模型时一直都使用吗，我发现去掉它对训练baseline的精度影响很大

Answer 5 · 2022-06-01T06:42:05.000Z

抱歉，关于这个细节我这边的code有点缺失，无法确认训练baseline的时候是否有使用clip grad norm。不过你可以按照效果好的那套设置来使用。

Answer 6 · 2022-06-01T06:43:55.000Z

嗯嗯，感谢您的回复，祝您生活愉快！