Gradvac的梯度更新
Closed this issue · 4 comments
MartinPR307 commented
Baijiong-Lin commented
这里的parameter group k是一个可调的超参数,正如原文的实验,k可以是whole_model也可以是all_layer。我们实现的是whole_model版本,后续我们会修改我们的实现,把k这个超参数加进去。
MartinPR307 commented
谢谢回复!期待细粒度的版本!
Baijiong-Lin commented
@MartinPR307 GradVac的实现已经修改,通过--GradVac_group_type
可以选择whole_model,all_layer和all_matrix,分别对应原文的描述如下,
Baijiong-Lin commented
Closed as no further updates.