(四)分类算法之逻辑回归

一. 前言

逻辑（Logistic）回归是分类算法中最基础也是最重要的手段，因此，掌握其内在原理是非常必要的。逻辑回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分问题（即结果要么是0，要么是1）。
在介绍逻辑回归之前，我们需要回顾一些数学基础内容。

1. 最大似然估计

什么是最大似然估计
通俗理解来说，就是整体概率分布已知，利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的分布模型的参数值！
举个栗子：假如国民收入符合正态分布，概率密度如下图。现在手里有一部分调查样本数据，根据这些样本数据，反推正态分布概率密度中的参数值，就是最大似然估计解决的问题。
最大似然估计的一般过程
首先要知道整体的分布模型，比如随便一个分布，概率密度p(x)，参数是θ
其次要有一些样本数据，假设为D

样本D同时发生的联合概率密度（不是条件概率，只是强调参数是θ）

似然函数就是这个联合概率密度，定义为L，自变量是θ

极大似然估计法原理就是固定样本观测值，挑选参数θ，使得似然函数L取得最大值。
所以，现在问题转化成了寻找使L取最大值的θ，即为目标参数，

当未知参数只有一个时，我们可以对L求导，令导数为0取极值，解出θ。
当未知参数有多个时，我们可以对L求偏导，令偏导数为0，得到方程组解出参数。

举个例子：

好，至此我们总结一下最大似然估计的一般步骤：

写出似然函数
对似然函数取对数（为什么取对数？因为直接求导可能很麻烦，对数不改变单调性，不影响计算极值点。）
求导数
解似然方程

二. 逻辑回归算法

1. 逻辑回归基本原理

接下来我们回归正题，来看一下逻辑回归。逻辑回归也叫做对数几率回归，明明是分类算法，为什么叫做回归呢？因为它仅仅是在线性回归的基础上，将线性模型通过一个函数，转化为结果只有0/1的分类模型。它的建模过程和线性回归基本相同：

寻找预测函数
构造代价函数
想办法使得代价函数最小并求得回归参数

寻找预测函数
假设有一个二分类问题，输出为y∈{0,1}，而线性回归模型产生的预测值为（w是参数向量）

我们希望有一个理想的函数来帮我们实现z值到0/1值的转化。于是我们找到了sigmoid函数

图像是

于是，我们非常自然的把sigmoid计算得到的值作为预测点为类别1的概率。概率大于0.5归类为1，小于0.5归类为0。至此，我们得到了预测函数模型

这里面，φ(z)表示的是类别取1的概率大小，那类别取0的概率大小j就是1-φ(z)
构造代价函数
按照线性回归的思路，如果利用误差平方和来当代价函数，得到

但是，我们此时的预测函数模型φ并不是线性的，如果把φ带入代价函数，得到的J是类似于下图的非凸函数，它有很多极值，使用梯度下降会很难找到代价函数最小的情况，所以这样构建代价函数并不合适。

我们可以换一个思路，最大似然估计该登场了。我们根据预测函数构造一个它的分布的概率密度，利用已知的样本反推参数。
根据上一步我们得到的预测函数，可以知道概率如下：

我们将这2个式子合并，得到概率公式：

由最大似然估计可知，联合概率就是：

最大似然估计的目标是找到参数W使得L(w)最大，那么我们对L加一个负号，是不是就可以得到代价函数，也就是找到参数W使得 -L(w)最小。不过，这并不重要，我们的目的只是求参数w而已。为了简化计算，我们对L(w)取对数

最后得到代价函数

3.求解参数
这里可以使用梯度下降法求解参数，具体做法已经在之前的线性回归中讲过，这里求解方式雷同，不在赘述。如果是使用计算库求解的话，可是使用BFGS与L-BFGS来代替梯度下降法，这2种算法收敛速度更快，且可以自适应选择学习效率α，不必手动设置。

2. 边界判定

让我们回到最开始，再来回顾一下我们的逻辑回归算法。

开始我们假设了一个线性模型，然后将线性模型带入了sigmoid函数，得到了逻辑回归模型。由sigmoid函数的图像，我们不难得出这样的结论：

那么现在假设线性模型如下，且已求出参数[-3,1,1]。则当-3+x_1+x_2≥0，即x_1+x_2≥3时，模型将预测 y=1。

如果从一开始就不是线性模型呢？下图就是曲线模型，且参数是[-1,0,0,1,1]

所以我想说的是：决定决策边界的不是训练集，而是假设本身和参数，训练集只是用来拟合求参数。

三. 逻辑回归特点

逻辑回归的数学模型和求解都相对比较简洁，实现相对简单。
本文最开始使用逻辑回归时，是将一个假设的线性模型代入sigmoid中，所以这个逻辑回归只能处理线性问题。实际中，也可以将非线性模型代入sigmoid，用来处理非线性问题。
逻辑回归适用于二分类问题，实际工作中，我们可能会遇到如下问题：预测一个用户是否点击特定的商品；判断用户的性别；预测用户是否会购买给定的品类；判断一条评论是正面的还是负面的；这些都可以尝试使用逻辑回归算法。

最后编辑于：2018.07.18 10:19:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342