1.1 经验误差与过拟合
训练误差(Training error):学习器在训练集上的误差
泛化误差(generalization error):学习器在新样本上的误差
1.2 评估方法
留出法(hold-out):将数据集D划分为两个互斥合集,其中一个为训练集S,另一个做训练集T,在S上训练模型,T来评估其测试误差,作为泛化误差估计
交叉验证法(cross validation):将数据集划分为k个大小的互斥子集,每个子集尽可能保持数据分布的一致性(分层采样),每次用k-1个子集做训练集,余下的子集做测试集
自助法(bootstrapping):亦称“可重复采样”或“有放回采样”,对数据集D进行有放回的采样,产生采样数据集D',将D'作为悬链样本,D\D'为测试集
1.3 性能度量
分类结果混淆矩阵:
预测 | ||
---|---|---|
真实情况 | 正例 | 反例 |
--- | --- | --- |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
样例总数 = TP + FN + FP + TN
召回率(recall):用户感兴趣的东西有多少被检测出来,,也称“查全率”
R =TP/TP + FN
查准率(precision):检索出的信息中有多少比例是用户感兴趣的
P = TP\TP + FP
PR曲线
平衡点(Break-Even Point,简称BEP):当查准率 = 召回率时的取值,平衡点约大,学习器性能更优