- 回归问题中用到的L2范数损失,比分类问题中的Softmax分类器用到的损失函数,更难优化。直观想一想这个问题,一个神经网络最后输出离散的判定类别,比训练它去输出一个个和样本结果对应的连续值,要简单多了。
- 我们前面的博文中提到过,其实Softmax这种分类器,对于输出的打分结果具体值是不怎么在乎的,它只在乎各个类别之间的打分幅度有没有差很多(比如二分类两个类别的得分是1和9,与0.1和0.9)。
- 再一个,L2范数损失健壮性更差一些,异常点和噪声都可能改变损失函数的幅度,而带来大的梯度偏差。
- 一般情况下,对于回归问题,我们都会首先考虑,这个问题能否转化成对应的分类问题,比如说我们把输出值划分成不同的区域(切成一些桶)。举个例子,如果我们要预测一部电影的豆瓣打分,我们可以考虑把得分结果分成1-5颗星,而转化成一个分类问题。
- 如果你觉得问题确实没办法转化成分类问题,那要小心使用L2范数损失:举个例子,在神经网络中,在L2损失函数之前使用dropout是不合适的。
关于Batch Normalization:通常在全连接层后(此时输出值可能会很大),激励层前做
激励层(实际经验)
1 不要用sigmoid!不要用sigmoid!不要用sigmoid!
2 首先试RELU,因为快,但要小心点
3 如果2失效,请用Leaky ReLU或者Maxout
4 某些情况下tanh倒是有不错的结果,但是很少
池化层 / Pooling layer
夹在连续的卷积层中间,压缩数据和参数的量,减小过拟合
3.Neural Networks and Deep Learning中文翻译