zhengli97/PromptKD

关于Student Prompt Distillation蒸馏过程

Closed this issue · 11 comments

我按照repo readme下载了对应pretrained teacher model,然后在imagenet数据集上运行了,想确认一个训练速度的问题:
在单个3090上显存可以容纳,但是训练时间在第300个batch中估计为15days,单张a100和3090训练速度差距那么大是否非常不合理,顺带能否公开训练的日志文件来参考

开大batch size 然后同倍放大lr,可以训练速度更快,对acc有一点影响 但不大

想请问在目前repo给出setting下,单张a100在imagenet上第300个batch中训练时间估计为多少呢,看之前的issue好像整个训练是一天多,感觉差这么大不是很合理

不记得了,我当时bs256训的,imagenet在a100上大概一个晚上加上午就训完了

现在config和paper里给出的bs8,lr0.005,如果开成bs128,lr对应放大16倍变成0.08吗。另外想请问是40g还是80g开256呢

是的。我是80g a100

感谢,最后想请问一下当时bs256训练,lr开的多少呢

0.08x2=0.16

不记得了,我当时bs256训的,imagenet在a100上大概一个晚上加上午就训完了

仔细检查了一下我的训练log,这里我说错了,当时64-shots大概是这个情况。full dataset大概需要1天左右。
训练log已经在release里面上传了。

非常感谢!观察到两个seeting的log里在第一个epoch训练后都出现了loss的突降和准确率的飚升,想问问作者对这点的原因有什么看法吗

warm up和两个模态对齐

非常感谢作者的耐心回复!