In shallow network, each neuron only provides one linear piece.
piece-wide function 折线的上限是,其中n是relu的个数
DNN的前面的layer更重要
只要所有的hidden layer的size大于输入输出的size,找到的局部最小值一定是全局最小值
参数越多,critical point是saddle point(鞍点)的概率越大
sharpness
小batch训练的效果更好, 可能和sharpness有关
best practice: standardscaler + selu + lecun_normal
GAN
DCGAN的技巧:使用leaky relu, BN, Generator最后一层的激活函数使用
tanh
,优化器使用Adam