CottLi opened this issue 7 years ago · 0 comments
请问您代码中的这句作用是什么(我猜测是处理梯度消失): self.Wyh -= lrD_Wyh/np.sqrt(D_WyhD_Wyh + 0.00000001) 但D_Wyh/np.sqrt(D_Wyh*D_Wyh + 0.00000001) 不是会将D_Wyh直接全部设置为1了吗,那么这样根本就不需要前面计算D_Wyh了 您的回答对我至关重要,因为,我不清楚这是否是一种正则化方法?