逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型
最大熵模型
最大熵模型的学习

逻辑斯谛回归（logistic regression）是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

逻辑斯谛回归模型

逻辑斯谛分布：设 $X$ 是连续随机变量， $X$ 服从逻辑斯谛分布是指 $X$ 具有下列分布函数和密度函数
$F(x) = P(X \le x) = \frac{1}{1+ e^{-(x-\mu)/\gamma}} \\ f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{\gamma(1+ e^{-(x-\mu)/\gamma})^2}$
式中， $\mu$ 为位置参数， $\gamma \gt 0$ 为形状参数。
逻辑斯谛分布函数，其图像是一条 S 形曲线。该曲线以点 $(\mu, \frac{1}{2})$ 为中心对称，即满足
$F(-x+\mu)-\frac{1}{2} = -F(x+\mu) + \frac{1}{2}$

曲线在中心附近增长速度较快，在两端增长速度较慢。形状参数 $\gamma$ 的值越小，曲线在中心附近增长得越快。
二项逻辑斯谛回归模型（binomial logistic regression model）是一种分类模型，由条件概率分布 $P(Y|X)$ 表示，形式为参数化的逻辑斯谛分布。这里，随机变量 $X$ 取值为实数，随机变量 $Y$ 取值为1或0。我们通过监督学习的方法来估计模型参数。
二项逻辑斯谛回归模型是如下的条件概率分布：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x + b)}{1+exp(\omega \cdot x + b)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x + b)}$
这里， $x \in R^n$ 是输入， $Y\in \{0,1\}$ 是输出， $\omega \in R^n$ 和 $b \in R$ 是参数， $\omega$ 称为权值向量， $b$ 称为偏置， $\omega \cdot x$ 为 $\omega$ 和 $x$ 的内积。
逻辑斯谛回归比较两个条件概率值的大小，将实例 $x$ 分到概率值较大的那一类。
为了方便，将 $\omega = (\omega^{(1)}, \omega^{(2)},...,\omega^{(n)}, b)^T$ ， $x=(x^{(1)},x^{(2)},...,x^{(n)}, 1)^T$ ，这时，逻辑斯谛回归模型如下：
$P(Y=1 \mid x) = \frac{exp(\omega\cdot x)}{1+exp(\omega \cdot x)} \\ p(Y=0 \mid x) = \frac{1}{1+exp(\omega \cdot x)}$
一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$ ，那么该事件的几率是 $\frac{p}{1-p}$ ，该事件的对数几率（log odds）或 logit 函数是
$logit(p) = \log\frac{p}{1-p}$
对逻辑斯谛回归而言
$\log\frac{P(Y=1\mid x)}{1-P(Y=1 \mid x)} = \omega \cdot x$
这就是说，在逻辑斯谛回归模型中，输出 $Y＝1$ 的对数几率是输入 $x$ 的线性函数。或者说，输出 $Y＝1$ 的对数几率是由输入 $x$ 的线性函数表示的模型，即逻辑斯谛回归模型。
给定训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i \in R^n$ ， $y_i \in \{0,1\}$ ，可以应用极大似然估计法估计模型参数，从而得到逻辑斯谛回归模型。
设 $P(Y=1\mid x)=\pi (x)$ ， $P(Y=0\mid x)= 1-\pi (x)$
似然函数为
$\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为
$\begin{array} \ L(\omega) &=& \sum_{i=1}^N[y_i\log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=& \sum_{i=1}^N [y_i \log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i)] \\ &=& \sum_{i=1}^N[y_i(\omega \cdot x_i)-\log(1+\exp(\omega\cdot x_i))] \end{array}$
对 $L(\omega)$ 求极大值，就得到 $\omega$ 的估计值。
这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。
二分类逻辑斯谛模型，可以将其推广为多项逻辑斯谛回归模型（multi-nominal logistic regression model），用于多类分类。

最大熵模型

最大熵原理是概率模型学习的一个准则。最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量 $X$ 的概率分布式 $P(X)$ ，则其熵是
$H(P) = -\sum_xP(x)\log P(x)$
熵满足以下不等式
$0 \le H(P) \le \log \mid X \mid$
式中， $\mid X \mid$ 是 $X$ 取值的个数，当且仅当 $X$ 的分布式均匀分布时右边的等号成立。也就是说， $X$ 服从均匀分布时，熵最大。
直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是“等可能的”。
等概率表示了对事实的无知。
给定训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，确定联合分布 $P(X,Y)$ 的经验分布和边缘分布 $P(X)$ 的经验分布，分别以 $\hat{P}(X,Y)$ 和 $\hat{P}(X)$ 表示
$\hat{P}(X=x,Y=y) = \frac{\#(X=x,Y=y)}{N} \\ \hat{P}(X=x) = \frac{\#(X=x)}{N}$
其中， $\#(X=x,Y=y)$ 表示训练数据中样本 $(X,Y)$ 出现的频数， $\#(X=x)$ 表示训练数据中输入 $x$ 出现的频数。 $N$ 表示训练样本容量。
用特征函数 $f(X,Y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实。
$f(x,y) = \begin{cases} & 1, \ \ \ \ \ \ x与y满足某一事实 \\ & 0, \ \ \ \ \ \ 否则 \end{cases}$
它是一个二值函数。
特征函数 $f(X,Y)$ 关于经验分布 $\hat{P}(X,Y)$ 的期望值，用 $E_{\hat{P}}(f)$ 表示
$E_{\hat{P}}(f) = \sum_{x,y}\hat{P}(x,y)f(x,y)$
特征函数 $f(X,Y)$ 关于模型 $P(Y\mid X)$ 与经验分布 $\hat{P}(X)$ 的期望值，用 $E_P(f)$ 表示
$E_P(f) = \sum_{x,y}\hat{P}(x)P(y\mid x)f(x,y)$
如果模型能够获取训练数据中的信息，那么就可以假设 $E_P(f)=E_{\hat{P}}(f)$ ，我们将该假设作为模型学习的约束条件。如果有多个特征函数，那么就会有多个约束条件。
最大熵模型定义： 假设满足所有约束条件的模型集合为
$C = \{P \in \rho \mid E_p(f_i)=E_{\hat{p}}(f_i),\ \ \ \ \ \ i=1,2,...,n\}$
定义在条件概率分布 $P(Y\mid X)$ 上的条件熵为
$H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)$
则模型集合 $C$ 中条件熵 $H(P)$ 最大的模型称为最大熵模型。式中的对数为自然对数。

最大熵模型的学习

对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 以及特征函数 $f_i(X,Y)$ ， $i=1,2,...,n$ ，最大熵模型的学习等价于约束最优化问题
$\begin{array} \ max_{P \in C} & H(P) = -\sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)=E_{\hat{p}}(f_i), \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
将最大值问题改写为等价的最小值问题
$\begin{array} \ min_{P \in C} & -H(P) = \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x)\\ s.t. & E_P(f_i)-E_{\hat{p}}(f_i)=0, \ \ \ \ \ i=1,2,...,n \\ & \sum_yP(y\mid x) =1 \end{array}$
将约束最优化的原始问题转换为无约束最优化的对偶问题
引入拉格朗日乘子 $\omega_0,\omega_1,...,\omega_n$ ，定义拉格朗日函数 $L(P,\omega)$
$\begin{array} \ L(P, \omega) & = & -H(p) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \\ & = & \sum_{x,y}\hat{p}(x)P(y|x)\log P(y|x) + \omega_0(1-\sum_yP(y\mid x)) + \sum_{i=1}^n\omega_i(E_{\hat{P}}(f_i)-E_P(f_i)) \end{array}$
最优化的原始问题是
$min_{P \in C}\ max_\omega\ L(P,\omega)$
对偶问题是
$max_\omega\ min_{P \in C} \ L(P,\omega)$
由于拉格朗日函数 $L(P,\omega)$ 是 $P$ 的凸函数，原始问题的解与对偶问题的解释等价的。这样可以求解对偶问题来求解原始问题。
求解对偶问题内部极小化问题 $min_{P \in C} \ L(P,\omega)$ ，该函数是 $\omega$ 的函数，将其记作
$\psi(\omega) = min_{P \in C} \ L(P,\omega) = L(P_\omega, \omega)$
$\psi(\omega)$ 称为对偶函数。同时，将其解记作
$P_\omega = arg \ min_{P \in C}L(P, \omega)=P_\omega(y \mid x)$
具体地，求 $L(p, \omega)$ 对 $P(Y\mid X)$ 的偏导数
$\begin{array} \ \frac{\partial L(P, \omega)}{\partial P(y\mid x)} & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1) - \sum_y \omega_0 - \sum_{x,y}(\hat{P}(x)\sum_{i=1}^n \omega_if_i(x, y)) \\ & = & \sum_{x,y}\hat{P}(x)(\log P(y\mid x) + 1 -\omega_0 -\sum_{i=1}^n \omega_if_i(x, y) ) \end{array}$
令偏导数等于 0，在 $\hat{P}(x) \gt 0$ 的情况下解得
$\begin{array} \ P(y\mid x) & = & exp(\sum_{i=1}^n\omega_if_i(x,y) + \omega_0 -1) \\ & = & \frac{exp(\sum_{i=1}^n\omega_if_i(x,y))}{exp(1-\omega_0)} \end{array}$
由于 $\sum_yP(y\mid x) =1$ 得
$p_\omega(y\mid x) = \frac{1}{Z_\omega(x)}exp(\sum_{i=1}^n\omega_if_i(x,y))$
其中，
$Z_\omega(x) = \sum_y exp(\sum_{i=1}^n \omega_if_i(x,y))$
$Z_\omega(x)$ 称为规范化因子； $f_i(X,Y)$ 是特征函数； $\omega_i$ 是特征的权值。
之后，对解对偶问题外部的极大化问题
$max_\omega \ \psi(\omega)$
将其解记为 $\omega^*$
$\omega^* = arg max_\omega \ \psi(\omega)$
这就是说，可以应用最优化算法求对偶函数 $\psi(\omega)$ 的极大化，得到 $\omega^*$ ，用来表示 $P^* \in C$ 。这里， $P^*＝P_{\omega^*}＝P_{\omega^*}(Y \mid X)$ 是学习到的最优模型（最大熵模型）。也就是说，最大熵模型的学习归结为对偶函数 $\psi(\omega)$ 的极大化。

最后编辑于：2019.02.19 17:07:38

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

逻辑斯谛回归与最大熵模型

逻辑斯谛回归模型

最大熵模型

最大熵模型的学习

推荐阅读更多精彩内容