Logistic Regression与Logistic Loss简介

Logistic Regression

在线性回归中,我们寻找的连续型随机变量YX的函数关系式为:Y=\beta^T X+\epsilon,其中\beta为待估参数(包含截距项\beta_0,即\beta=(\vec{w},\beta_0)^T\beta^TX=w^TX+\beta_0),\epsilon为随机误差。那么,如果Y是离散型随机变量,例如服从Bernoulli分布、多项分布等,又应该怎么样来描述YX的关系呢?

下面我们只讨论一般的Logistic Regression,即Y\sim Bernoulli(p)。直观的想法是假设下面关系成立:

p=\beta^TX\\1-p=1-\beta^TX

其中p=\mathbb{E}Y。然而,这样就会出现一个问题,p1-p应该是在[0,1]范围内。因此,我们可以考虑做以下修正,将其映射到[0,1]范围内:

p=\dfrac{e^{\beta^TX}}{e^{\beta^TX}+e^{1-\beta^TX}}\\1-p=\dfrac{e^{1-\beta^TX}}{e^{\beta^TX}+e^{1-\beta^TX}}

即先取指数,映射到非负区间,再做归一化。对上式再做简单化简,就可以得到Logistics Regression的常见形式:

p=\dfrac{1}{1+e^{-\beta^TX}}\\1-p=\dfrac{e^{-\beta^TX}}{1+e^{-\beta^TX}}

因此,上述变换等价于对\beta^TX做了sigmoid变换,对应的sigmoid函数为\sigma(x)=\dfrac{1}{1+e^{-x}};在多分类的情形下,即为softmax变换;在其他情形下,还有其他对应的函数,感兴趣的读者可以参考以下Generalized Model的Mean Function

注1:这里我们只是给出了一个容易理解的方式,为什么这个映射函数恰好是\sigma(x)而不是其他函数?其实是可以从凸优化问题中利用KKT条件求解出\sigma(x)的,详见论文The equivalence of logistic regression and maximum entropy models

\beta的极大似然估计

在给定样本\{(X_i,Y_i),i=1,2,\cdots,n\}的情况下,首先我们需要写出似然函数。由于Y\sim Bernoulli(p),因此Y的分布函数为f_Y(y;\beta)=p^y(1-p)^{1-y}。似然函数为

\begin{align}L(\beta;X_i,Y_i,i=1,2,\cdots,n)&=\prod\limits_{i=1}^nf_Y(Y_i;\beta)\\&=\prod\limits_{i=1}^np_i^{Y_i}(1-p_i)^{1-Y_i}\\&=p_i^{\sum\limits_{i=1}^nY_i} (1-p_i)^{\sum\limits_{i=1}^n(1-Y_i)}\end{align}\\

取对数之后,得到

\begin{align}
l(\beta;X_i,Y_i,i=1,2,\cdots,n)&=\log L(\beta;X_i,Y_i,i=1,2,\cdots,n)\\&= \sum\limits_{i=1}^nY_i\log p_i +  \sum\limits_{i=1}^n(1-Y_i)\log(1- p_i)\end{align}\\

注意到我们在前一节已经假定了Logistic模型,即p_i=\sigma(\beta^TX_i),为了保持形式的简洁,在上式中仍用p_i代替。注意到

\begin{align}\dfrac{\partial p}{\partial \beta}&=- \dfrac{1}{(1+e^{-\beta^TX})^2}\cdot e^{-\beta^TX}\cdot (-X)\\&=\dfrac{Xe^{-\beta^TX}}{(1+e^{-\beta^TX})^2}\\&=Xp(1-p)\end{align}\\

对log似然函数求偏导,并令其为0:\begin{align}\dfrac{\partial l}{\partial \beta}&=\sum\limits_{i=1}^nY_i \dfrac{1}{p_i}\cdot\dfrac{\partial p_i}{\partial \beta}-\sum\limits_{i=1}^n(1-Y_i) \dfrac{1}{1-p_i}\cdot\dfrac{\partial p_i}{\partial \beta}\\&= \sum\limits_{i=1}^n \dfrac{X_iY_ie^{-\beta^TX_i}}{1+e^{-\beta^TX_i}}-\sum\limits_{i=1}^n \dfrac{X_i(1-Y_i)}{1+e^{-\beta^TX_i}}\\&=\sum\limits_{i=1}^n \dfrac{X_i}{1+e^{-\beta^TX_i}}[-1+(1+e^{-\beta^TX_i})Y_i]\\&=\sum\limits_{\{i|Y_i=1\}} \dfrac{X_i}{1+e^{-\beta^TX_i}}e^{-\beta^TX_i}-\sum\limits_{\{i|Y_i=0\}} \dfrac{X_i}{1+e^{-\beta^TX_i}}\\&=\sum\limits_{\{i|Y_i=1\}} X_i-\sum\limits_{i=1}^n \dfrac{X_i}{1+e^{-\beta^TX_i}}\\&=0\end{align}\\

上述方程没有显式解,一般只能用牛顿迭代法求\beta最大似然估计的数值解。

Logistic Loss

我们重新化简一下对数似然函数,

\begin{align}
l(\beta;X_i,Y_i,i=1,2,\cdots,n)&= \sum\limits_{i=1}^nY_i\log p_i +  \sum\limits_{i=1}^n(1-Y_i)\log(1- p_i)\\&= -\sum\limits_{i=1}^nY_i\log(1+e^{-\beta^TX_i})+  \sum\limits_{i=1}^n(1-Y_i)[-\beta^TX_i-\log(1+e^{-\beta^TX_i})]\\&=\sum\limits_{i=1}^n[(Y_i-1)\beta^TX_i-\log(1+e^{-\beta^TX_i})]\\&=\sum\limits_{i=1}^n\left[(Y_i-1)\beta^TX_i+\log\left(\frac{e^{\beta^TX_i}}{1+e^{\beta^TX_i}}\right)\right]\\&=\sum\limits_{i=1}^n\left[Y_i\beta^TX_i-\log\left(1+e^{\beta^TX_i}\right)\right]\end{align}\\

因此,我们有

\begin{align}\max\limits_{\beta}l(\beta;X_i,Y_i,i=1,2,\cdots,n)&=\max\limits_{\beta}\sum\limits_{i=1}^n\left[Y_i\beta^TX_i-\log\left(1+e^{\beta^TX_i}\right)\right]\\&=\min\limits_{\beta}\sum\limits_{i=1}^n\left[-Y_i\beta^TX_i+\log\left(1+e^{\beta^TX_i}\right)\right]\\LogisticLoss(X_i,Y_i;\beta)&\triangleq -Y_i\beta^TX_i+\log\left(1+e^{\beta^TX_i}\right)\end{align}\\

注2:在实际计算中,通常还要除以样本数n,控制梯度大小,因为计算\hat{\beta}的时候是根据gradient-based算法。

注3:我们讨论的是Y_i\in\{0,1\}的情况,在Y\in\{-1,1\}时,Logistic Loss有不同的形式(详见Which loss function is correct for logistic regression?),

LogisticLoss(X_i,Y_i;\beta)=\log(1+e^{-Y_i\beta^TX_i})\\

而后者的标签与Adaboost推导时默认的标签相同,Logistic Loss与Adaboost的Exponential Loss也有一定相似性,在底数为e的情况下,\ln(1+x)\leq x,\ x\geq -1,Logistic Loss的图像在Exponential Loss下方,甚至还可以将Adaboost修改为优化Logistic Loss(详见Logistic Regression)。

A plot of the exponential loss, the logistic loss (using both logarithm base 2 and logarithm base e), and classification loss.
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335