关于Student Prompt Distillation蒸馏过程

Question

关于Student Prompt Distillation蒸馏过程

Closed this issue 4 months ago · 11 comments

我按照repo readme下载了对应pretrained teacher model，然后在imagenet数据集上运行了，想确认一个训练速度的问题：
在单个3090上显存可以容纳，但是训练时间在第300个batch中估计为15days，单张a100和3090训练速度差距那么大是否非常不合理，顺带能否公开训练的日志文件来参考

Answer 1 · 2024-04-22T09:49:20.000Z

开大batch size 然后同倍放大lr，可以训练速度更快，对acc有一点影响但不大

Answer 2 · 2024-04-22T09:56:58.000Z

想请问在目前repo给出setting下，单张a100在imagenet上第300个batch中训练时间估计为多少呢，看之前的issue好像整个训练是一天多，感觉差这么大不是很合理

Answer 3 · 2024-04-22T10:05:36.000Z

不记得了，我当时bs256训的，imagenet在a100上大概一个晚上加上午就训完了

Answer 4 · 2024-04-22T10:08:51.000Z

现在config和paper里给出的bs8，lr0.005，如果开成bs128，lr对应放大16倍变成0.08吗。另外想请问是40g还是80g开256呢

Answer 5 · 2024-04-22T10:10:59.000Z

是的。我是80g a100

Answer 6 · 2024-04-22T10:11:56.000Z

感谢，最后想请问一下当时bs256训练，lr开的多少呢

Answer 7 · 2024-04-22T14:47:43.000Z

0.08x2=0.16

Answer 8 · 2024-04-22T14:54:28.000Z

不记得了，我当时bs256训的，imagenet在a100上大概一个晚上加上午就训完了

仔细检查了一下我的训练log，这里我说错了，当时64-shots大概是这个情况。full dataset大概需要1天左右。
训练log已经在release里面上传了。

Answer 9 · 2024-04-23T03:10:39.000Z

非常感谢！观察到两个seeting的log里在第一个epoch训练后都出现了loss的突降和准确率的飚升，想问问作者对这点的原因有什么看法吗

Answer 10 · 2024-04-23T06:07:44.000Z

warm up和两个模态对齐

Answer 11 · 2024-04-23T10:44:08.000Z

非常感谢作者的耐心回复！