THUDM/ComiRec

关于分布式训练

dawuchen opened this issue · 2 comments

请问一下,对于interest和behavior embedding之间的连接权重logit的更新,因为是用动态路由的方式来更新,而不是梯度下降。如果是用分布式的训练,那不是存在各个worker之间的最新logit之间相互覆盖的问题了?关于分布式训练这点,请问作者你怎么考虑呢?

分布式训练这个rp能用吗?

分布式训练这个rp能用吗?
interest和behavior embedding之间的连接权重logit不是variable,而是普通的tensor,不会做保存的,也不会在batch间传递,所以没有分布式的问题