linear_SVM.py 里面dw正则化为什么用L1

Question

Closed this issue 5 years ago · 6 comments

linear_svm.py代码44行为什么使用的是
dW += reg * W
而不是dW += reg * np.sum(W * W)
同时问一下48行为什么你在loss正则化前面乘了0.5
loss += 0.5 * reg * np.sum(W * W)

Answer 1 · 2020-02-02T10:11:57.000Z

我们在给loss加正则化项的时候为了方便求导（使用L2范数），通常会给正则化项的loss乘上1/2。
dW += reg * W
这步则是计算求导的正则化项，该项 reg1/22W=regW

Answer 2 · 2020-02-03T01:26:17.000Z

乘上1/2这个是我们编程中的预定俗称的参数吗？因为我看源代码并没有乘这个1/2；课程中有提及过这一点吗？
reg是我们的超参数对吧，那么2W这个求导的正则化项是怎么来的呢？
麻烦再解答一下~谢谢老哥

Answer 3 · 2020-02-03T01:30:33.000Z

乘1/2的约定俗成的，就比如1/2*X^2求导等于X一样，我们希望求导后的表达式简化。

Answer 4 · 2020-02-03T01:56:16.000Z

1/2完全明白啦~
2W是怎么来的呢？

Answer 5 · 2020-02-03T01:58:54.000Z

W^2求导得来的

Answer 6 · 2020-02-03T02:00:10.000Z

哎呀呀懂了懂了好傻的问题...
非常感谢！新年快乐~