本文首发于我的个人博客Suixin's Blog
原文: https://suixinblog.cn/2018/10/linear-classification3.html 作者: Suixin
判别式方法:直接对条件概率分布进行建模。
相比生成式方法有两个优点:需要训练的参数更少,预测表现会提升(尤其当类条件概率密度的假设没有很好的近似真实分布的时候)。
logistic回归
对于二分类问题,类别的后验概率为
可见,对于维特征空间,该模型只有个可调节参数,而生成式模型需要调节参数总数为。
对于一个数据集,其中,且,。
似然函数为
其中,。通过对似然函数取负对数的方式定义一个误差函数,即交叉熵(cross-entropy)误差函数
对求梯度,可得
注:最大似然方法对于线性可分的数据集会产生严重的过拟合。
迭代重加权最小平方(IRLS)
logistic回归不再有解析解,故需要用Newton-Raphson迭代
其中,是Hessian矩阵,其元素为关于的二阶导数。
推导可得
其中,的对角矩阵元素为。由于,故对任意向量都有,即正定,因此误差函数是的凸函数,有唯一最小值。
softmax分类
对于多分类问题,后验概率为
其中,。求导,有
从而,似然函数为
其中,,是一个的矩阵,元素为1-of-K编码值。
交叉熵误差函数为
同样利用Newton-Raphson迭代可求解。