Logistic Regression

这段时间在学习机器学习相关知识, 记录学习过程和笔记~

有不正确的地方, 恳请大家指出~

`Logistic Regression`

它虽然叫着回归的名字, 但是它确实一个分类器

它的表达式是:

$f(x) = \frac{1}{1 + e^{-\theta}}$

$\theta = WX + B$

可以发现, 经过sigmoid函数转换后, 输出值是在[0, 1]之间, 可以认为输出是概率, 下面就来详细的推导.

image

推导

为了计算方便, 我们只讨论二分类.

首先, 逻辑回归进行了一个假设, 两个类别都服从均值不同, 方差相同(方便推导)的高斯分布

$p(y|x=0) = \mu(\mu_0, \sigma)$

$p(y|x=1) = \mu(\mu_1, \sigma)$

高斯分布是比较容易处理的分布，根据中心极限定理也知道, 最终会收敛于高斯分布.
从信息论的角度上看，当均值和方差已知时（尽管你并不知道确切的均值和方差，但是根据概率论，当样本量足够大时，样本均值和方差以概率1趋向于均值和方差），高斯分布是熵最大的分布，为什么要熵最大？因为最大熵的分布可以平摊你的风险(同一个值会有两个点可以取到, 不确定性很大)，这就好比不要把鸡蛋放到同一个篮子里，想想二分查找中，为什么每次都是选取中间点作为查找点？就是为了平摊风险.(假设方差相等只是为了计算方便)

风险

$Risk(y=0|x) = \lambda_{00}P(y=0|x) + \lambda_{01}P(y = 1|x)$

$Risk(y=1|x) = \lambda_{10}P(y=0|x) + \lambda_{11}P(y = 1|x)$

其中， $Risk(y=0|x)$ 是把样本预测为0时的风险， $Risk(y=1|x)$ 是把样本预测为1时的风险，
$λ_{ij}$ 是样本实际标签为j时，却把它预测为i是所带来的风险。

我们认为预测正确并不会带来风险，因此 $λ_{00}$ 和 $λ_{11}$ 都为0，此外，我们认为当标签为0而预测为1 和当标签为1而预测为0，这两者所带来的风险是相等的，因此 $λ_{10}$ 和 $λ_{01}$ 相等，方便起见，我们记为λ。但在一些领域里，比如医学、风控等，这些λ在大多数情况下是不相等的，有时候我们会选择“宁可错杀一一千也不能放过一个”;

那么我们简化后的表达式:

$Risk(y=0|x) = \lambda P(y = 1|x)$

$Risk(y=1|x) = \lambda P(y=0|x)$

根据最小化风险的原则, 我们通常会选择风险较小的.

比如:

$Risk(y=0|x) < Risk(y=1|x)$

这就说明了预测为第0类的风险小于预测为第1类的风险.

可以得到:

$\frac{Risk(y=0|x)}{Risk(y=1|x)} < 1$

$\frac{P(y = 1|x)}{P(y=0|x)} < 1$

就是说明预测第1类的概率小于第0类的概率.

我们对不等式两边分别取对数

$log\frac{{P(y = 1|x)}}{{P(y=0|x)}} < 0$

根据贝叶斯公式:

$log\frac{P(x|y = 1)p(y=1)}{P(x|y=0)p(y=0)} < 0$

$log\frac{P(x|y = 1)}{P(x|y=0)} + log\frac{p(y=1)}{p(y=0)} < 0$

我们开始假设过, 两个类别分别服从均值不等, 方差相等的高斯分布, 根据高斯分布的公式有:

高斯分布

$g(x) = \frac{1}{2\pi\sigma}e^{-\frac{(x - \mu)^2}{2\sigma^2}}$

忽略常数项(方差也是相等的)

$log\frac{P(x|y = 1)}{P(x|y=0)} + loge^{(\frac{(x - \mu_0)^2}{2\sigma^2} - \frac{(x - \mu_1)^2}{2\sigma^2})}$

$log\frac{P(x|y = 1)}{P(x|y=0)} + (\frac{(x - \mu_0)^2}{2\sigma^2} - \frac{(x - \mu_1)^2}{2\sigma^2}) < 0$

$log\frac{P(x|y = 1)}{P(x|y=0)} < \frac{(x - \mu_1)^2}{2\sigma^2} - \frac{(x - \mu_0)^2}{2\sigma^2}$

$log\frac{P(x|y = 1)}{P(x|y=0)} < \frac{\mu_0}{\sigma^2}x - \frac{\mu_1}{\sigma^2}x + C$

C是常熟, 可以使用矩阵的表示.

$log\frac{P(x|y = 1)}{P(x|y=0)} < \theta{X}$

详细推导

对值取幂, 以及等式取等号计算.

$\frac{P(y=1|x)}{P(y=0|x)} = e^{\theta x}$

$= \frac{P(y=1|x)}{1 - P(y=1|x)} = e^{\theta x}$

$= \frac{1 - P(y=1|x)}{P(y=1|x)} = e^{-\theta x}$

$= \frac{1}{P(y=1|x)} - 1 = e^{-\theta x}$

$= \frac{1}{P(y=1|x)} = e^{-\theta x} + 1$

$= P(y=1|x) = \frac{1}{e^{-\theta x} + 1}$

以下是实现的一些截图

image

优化我们采用梯度下降算法

image

交叉熵损失函数

image

最终效果

image

代码地址

最后编辑于：2018.12.28 12:11:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 195,980评论 5赞 462
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 82,422评论 2赞 373
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 143,130评论 0赞 325
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 52,553评论 1赞 267
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 61,408评论 5赞 358
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 46,326评论 1赞 273
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 36,720评论 3赞 386
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 35,373评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 39,678评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 34,722评论 2赞 312
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 36,486评论 1赞 326
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,335评论 3赞 313
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 37,738评论 3赞 299
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,009评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,283评论 1赞 251
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 41,692评论 2赞 342
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 40,893评论 2赞 335

Logistic Regression