Deep Learning 学习笔记
tanh相比sigmoid:
①输出与输入的关系能保持非线性单调上升和下降关系;
②该函数连续,可以微分求出函数关系,符合BP网络的梯度求解;
③具有非线性超平面(wtf?),柔和光滑有利于优化搜索;
④对神经网络容错性好;
⑤比sigmoid延迟了饱和期.
对于softmax函数:
相当于多分类时的sigmoid.
http://sebastianruder.com/optimizing-gradient-descent/index.html#momentum