Logistic 回归
模型的构建
考虑线性模型
或写作
这是一个线性回归模型,最终可学得一条直线,用以拟合数据。我们可以对其增加一个联系函数,将其映射成其他非线性的模型,称为广义线性模型 (GLM)。
将这个联系函数设置为 Sigmoid 函数,就变成了 Logistic 回归
将 作为一个整体,对上式求反函数,可得
称为几率 (odd),对其取对数则得到对数几率。
在 Logistic 回归中,标签y服从伯努利分布。把y视为类后验概率估计 ,则上式可改写为
则可得到
这被称为二项 Logistic 回归模型。以 为例,输出 Y=1 的对数几率是输入 x 的线性函数,线性函数的值越接近正无穷,概率值就越接近1;越接近负无穷,概率值就越接近0。
将 写作向量形式,我们将上面两式合为一起,再稍作变换,可得预测样本的概率
表示模型的预测值,y 是标签。由于y只有0和1两种取值,所以计算时上式两边只有一边起作用,另一半恒为1。
模型的学习
的取值为 [0, 1],学习的目的是极大化 。当有N个样本时,目标函数为
这被称为似然函数,是我们要优化的目标函数,使其最大化。由于连乘不适合求导,可以对其取对数,再取负(将最大化转变为最小化,以方便使用梯度下降或牛顿法拟合)。
再经过一番化简,可得到最终的损失函数
这就是所谓的对数损失函数。它是任意阶可导的凸函数,在 Logistic 回归里,一般采用梯度下降法或拟牛顿法进行优化。
而如果直接用线性回归里的 MSE 损失函数加上 Sigmoid 函数,得到的是非凸函数,不易求解,所以才会用极大似然估计来得到对数损失函数,训练 Logistic 回归,而且对数损失函数的更新速度很快,因为它只与x和y有关,和 Sigmoid 本身的梯度无关。