alibaba/Megatron-LLaMA

请问ParameterSchedule实际上有作用吗?

yinzhijian opened this issue · 1 comments

代码上看_profile_hook注册函数profile_param_get_grad_order并没有被调用,所以想请教下ParameterSchedule设计的初衷是什么?以及实际是否用到了?

本来想通过ParameterSchedule 记录下各个参数实际获得梯度的顺序,可以更合理的进行BufferAssignment。但实际发现Transformer 结构非常Sequential,就没再继续开发。