“求导链式法则衍生的梯度累加规则”请解释
A-Pai opened this issue · 0 comments
A-Pai commented
“2-3,动态计算图.ipynb”讲到“求导链式法则衍生的梯度累加规则”,不太明白,请解释
我也一直在思考pytorch为何默认是梯度累加,一种解释是“梯度累加的**很简单,就是时间换空间。具体而言,我们不在每个 batch data 梯度计算后直接更新模型,而是多算几个 batch 后,使用这些 batch 的平均梯度更新模型” https://blog.csdn.net/wxc971231/article/details/139177793