1、归纳偏置 (Inductive Bias)
当学习器去预测其未遇到过的輸入结果时,所做的一些假设的集合,让算法优先某种解决方案,这种偏好独立于观测的数据。
归纳 (Induction) 是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。
偏置 (Bias) 则是指对模型的偏好。
通俗理解:从现实生活中观察到的现象中归纳出一定的规则 (heuristic s),然后对模型做一定的约束,从而可以起到 “模型选择” 的作用,类似贝叶斯学习中的 “先验”。
广义解释:归纳偏置会促使学习算法优先考虑具有某些属性的解。
例如:
“奥卡姆剃刀” 原理:希望相同性能下,学习到的模型复杂度更低
KNN 中假设特征空间中相邻的样本倾向于属于同一类
SVM 中假设好的分类器应该最大化类别边界距离
2、卷积神经网络CNN
CNN的归纳偏置是:
(a)局部感受野 (Locality):空间位置上的元素 (Grid Elements) 的联系/相关性近大远小。对应小尺寸卷积核。
(b)旋转不变性 (rotation Invariance) :目标旋转与否不影响最终的分类识别。对应卷积核的对称性。
(c)平移不变性 (Translation Invariance):目标平移与否不影响最终的分类识别。对应权重滑动共享。
代表网络为ResNet。
3、循环神经网络RNN
RNN 的归纳偏置:
(a)序列性 (Sequentiality):强调序列上下文顺序关系。
(b)时间不变性 (Time Invariance):序列各时间步 (Timesteps)之间存在上下文关联。
(c)时间变换的不变性:RNN不同timestep之间权重共享。
代表网络为LSTM。
4、图网络
归纳偏置:中心节点与邻居节点的相似性会更好引导信息的聚合和传播。
代表网络为GCN。
与CNN和RNN的对比:
(a)RNN处理序列数据,CNN处理欧式结构图像数据,GCN可以处理非结构话的图数据,普适性强。
(b)参数层面,RNN是不同时间步之间共享,CNN是卷积核参数,GCN主要是计算中心节点和邻域节点之间的权重。
(c)计算限制,RNN要求按时序先后顺序计算,CNN要求坐标邻域计算,GCN脱离时序和空间约束,通常采样与中心节点距离最近的N各节点(距离的计算方式可灵活选择)。
5、多层感知机
归纳偏置:全局感受野,但是权重参数是固定的。
代表网络为MLP-Mixer。
6、Attention机制
归纳偏置:全局感受野,权重参数由上下文动态attend计算。
代表网络为Bert。