文章结论:神经网络极易记忆训练数据,其良好的泛化能力很可能与此记忆有关。 正则化不是模型泛化的根本原因。
泛化能力是指模型在训练集上的误差能否够接近所有可能测试数据误差的均值。泛化误差:测试数据集误差和训练数据集误差之差。
论文的contribution:problematize the traditional view of generalization by showing that it is incapable of distinguishing between different neural networks that have radically different generalization performance.
1. randomization tests:使用random label
2. 显式正则化的作用
3. 隐式正则化的作用