1.归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。
*两种决策
适用情形尽可能少(经验误差),适用情形尽可能多(过拟合)。
*常用基本原则
“奥卡姆剃刀”原则:若有多个假设与观察一致,则选最简单的那个。
2.经验误差与过拟合
我们希望得到范化误差小的学习器,而实际只能使经验误差最小。通常分类精度为100%,经验误差小的学习器因过拟合效果不佳。我们的目的是学出适用于所有潜在样本的普遍规律。
欠拟合由学习能力低下造成,比较容易克服如拓展决策树分支,增加神经网络训练轮数。而过拟合则是机器学习的关键障碍,我们试图通过经验误差最小化获得最优解就意味着我们构造了“P=NP”,只要相信“P!=NP”,过拟合就不可避免。各类学习算法有一些针对过拟合的措施,只能缓解和减小风险。
3.评估过程指标
错误率=分类错误
精度=1-错误率
误差=误差期望=实际预测与实际输出差异
期望=平均=概率*结果
经验误差=训练误差
范化误差=新样本误差
过拟合=过配(把样本自身特点当做潜在样本的一般性质)
欠拟合=欠配
4.评估方法
通过测试集测试学习器对新样本的辨别能力。用测试误差模拟范化误差。
即使采用相同训练/测试集划分方法,也需进行若干次随机划分,重复进行实验评估后取测试误差平均值作为评估结果。
5.训练集和测试集的划分方法
测试样本在真实样本中独立同分布采样。
测试集与训练集互斥。并且要尽可能保持数据分布的一致性。避免引入额外偏差。
留出法
将数据集划分为两个互斥集合分别作为训练集和测试集。训练/测试集需尽可能保持数据分布一致。测试集占比一般为2/3~4/5。