您好呀
Closed this issue · 3 comments
anonymousA01 commented
非常棒的工作,请问您在训练的时候是采用A100系列还是RTX4090系列进行训练的?您在分布式训练的时候使用了多少张卡?每张卡显存占了多少呀?
GX77 commented
感谢您的关注~ 我们所有实验均在A100上进行,卡数 = batch size,每个数据集的batch size在论文中有叙述,不同的卡数可能会对最终的训练结果有影响。显存受到分辨率的影响,调小分辨率可以减少显存,但性能可能也会下降。
anonymousA01 commented
#感谢您的回复,还有一个小问题想请问您一下,你baseline具体的结构是怎样子的呢,您方便告知一下嘛?
GX77 commented
baseline的结构为一个融合特征的encoder,temporal decoder以及spatial decoder(也就是没有context mining)