向量表示:
均方误差 是回归任务中最常用的性能度量, 对应几何的“欧氏距离”
最小二乘法基于均方误差最小化进行模型求解的方法
广义线性模型: 考虑单调可微函数g,
函数g为 联系函数
对数线性回归是广义线性模型在 g=ln 时的特例
考虑二分类任务,需将实值转换为0/1值
Sigmoid函数:将z值转换为一个接近0或1的y值,并且其输出在z=0附近变化很陡。
E.G. 对数几率函数 :
几率:y视为x作为正例的可能性,1-y则为反例可能性,y/(1-y)为几率
优点: 直接对分类可能性进行建模,无需事先假设数据分布;不仅预测类别,还可得到近似概率预测。
线性判别分析 Linear Discriminant Analysis (LDA): 又名 “Fisher判别分析”,给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
类内散度矩阵,类间散度矩阵
多分类LDA将样表投影到N-1维空间,N-1通常远小于数据原有的属性数。So, LDA被视为经典的监督降维技术。
多分类学习:
拆解法:将任务拆为若干个二分类任务求解
一对一(One v One),一对多(One v Rest), 多对多(Many v Many)
最终结果
OvO:投票产生
OvR : 若有一个预测为正例,则为分类结果;若多个为正,则参考预测置信度,选择置信度最大的为结果
MvM:正反例要特殊设计,E.G. 纠错输出码 Error Correcting Output Codes (ECOC)
编码:对N个类做M次划分,一部分类别为正类,其余的为反类,从而形成二分类训练集;M个训练集,M个分类器。
解码:M个分类器对样本进行预测,预测标记组成一个编码。将编码与各自编码进行比较,距离最小的类别为最终结果。 二元码:+,- ; 三元码:+,-,停用
纠错能力:单个分类器的错误,对整理距离计算和最后结果选择,影响有限,可纠错。
对同一个学习任务,ECOC编码越长,纠错能力越长。同时,分类器也越多,开销大。对有限类别数,可能的组合数目是有限的,码长超过一定范围后就没意义了。
前面的分类学习方法基于共同的基本假设:不同类别的训练样例数目相当
类别不平衡:再缩放(rescaling)
欠采样:除去一些例子,使正反样例数目接近 (e.g. EasyEnsemble: 集成学习机制,多个学习器)
过采样:增加一些例子,使正反样例数目接近 (e.g. SMOTE:插值产生额外例子)
阈值移动:决策值改变,概率不在是0.5,如上图所示