机器学习笔记4: 生成学习算法

生成学习算法

目前为止，我们主要讨论的学习算法基于p(y|x;θ)进行建模，即给定x的情况下y的条件分布。比如在逻辑回归里我们基于p(y|x;θ)推导出h_θ(x)=g(θ^Tx)，其中g(z)是sigmoid函数。这次我们来介绍另一种类型的学习算法。

考虑这样一个分类问题，根据动物的某些特征用来区分该动物究竟是大象(y=1)还是狗(y=0)。之前的回归算法可能通过梯度上升算法求出一条直线，也就是决策边界(decision boundary)，来区分大象和狗。对于一个新的动物，看它落到直线的哪一边就能做出相应的预测。

另一种方法是，我们挑选出大象的数据，单独对大象进行建模；对狗也一样，单独对狗进行建模。对于一个新的动物，分别对大象的模型和狗的模型进行匹配，看哪个匹配得更像，进而做出相应的预测。

像逻辑回归这样对p(y|x)进行建模的算法称为判别学习算法(discriminative learning algorithms)。而这次我们介绍的对p(x|y)进行建模的算法称为生成学习算法(generative learning algorithms)。拿刚才的分类问题举例，如果y=1表示动物是大象，y=0表示动物是狗，那么p(x|y=0)就表示对狗的特征进行建模，p(x|y=1)就表示对大象的特征进行建模。

p(x|y)和p(y|x)的关系可以用贝叶斯规则(Bayes rule)描述：

由于p(x)是一个与y无关的值，所以为了让p(y|x)取最大值，可以忽略分母的值，即：

多元正态分布

在介绍下面的算法之前，我们先简单讨论一些多元正态分布(multivariate normal distribution)的知识。

多元正态分布，又称多元高斯分布，是一元高斯分布的在向量形式的推广。对一个均值(mean vector)为μ，协方差矩阵(covariance matrix)为Σ的n维多元正态分布，其概率密度函数为：

如果一个随机变量X服从多元正态分布N(μ,Σ)，它的期望值由μ决定，即：

协方差矩阵Cov(X)=E[(X-E(X))(X-E(X))^T]=Σ。下面我们用几张图说明参数μ和Σ对分布的影响。

上图最左面的图形表示一个μ=0，Σ=I(2*2的单位矩阵)的标准正态分布(standard normal distribution)。中间的图形表示的是μ=0，Σ=0.6I的正态分布。右边的图形表示的是μ=0，Σ=2I的正态分布。由此可见，Σ越大，图形更“扩散(spread-out)”，Σ越小，图形更“压缩(compressed)”。

上图的三个图形表示μ=0，Σ分别如下所示的正态分布：

由此可见，增加Σ非对角线(off-diagonal)上的值，图形向45度角方向上变得更“压缩(compressed)”了。

最后我们看下参数μ对图形的影响：

上图的分布参数Σ=I，μ的值分别如下：

综上，μ的值决定了中心的位置，Σ的值决定了分布的幅度。

高斯判别分析

假设在我们的分类问题中，x是连续的随机变量，p(y)服从伯努利分布，p(x|y)服从多元正态分布，这样的模型称为高斯判别分析(Gaussian Discriminant Analysis, GDA)模型。具体来说：

它们对应的概率分布为：

这里我们模型的参数有φ，Σ，μ₀，μ₁。注意，尽管两个多元正态分布有不同的均值μ₀和μ₁，但它们有相同的协方差矩阵Σ。这个模型的对数似然函数为：

通过最大化l，我们可以求得各参数如下：

下面我们用图形来更直观地理解一下：

上图给出了训练数据，以及两个高斯分布的等高线图。两个分布的形状相似(因为有相同的协方差矩阵Σ)，但位置不同(因为均值μ不同)。图中也给出了一个直线，表示p(y=1|x) = 0.5时的决策边界。在边界的一边我们认为y=1是概率最大的，而另一边我们认为y=0是概率最大的。

高斯判别分析与逻辑回归的关系

GDA模型和逻辑回归之间的关系很有趣。如果我们把p(y=1|x;φ,Σ,μ₀,μ₁)看作是关于x的函数，我们可以将其表示成如下形式：

其中θ可以写成关于φ,Σ,μ₀,μ₁的函数。上式正好是逻辑回归的表达形式。

如果p(x|y)服从多元正态分布，那么p(y|x)可表达成逻辑回归的形式。相反地，如果p(y|x)可表达成逻辑回归的形式，那么不代表p(x|y)服从多元正态分布。这说明GDA比逻辑回归需要更加严格的模型假设。当GDA模型假设成立时，GDA的拟合效果比逻辑回归更好；而当假设不成立时，逻辑回归的拟合效果更好。

另外在补充一点，如果p(x|y)服从指数分布族，那么p(y|x)也可表达成逻辑回归的形式。但是用GDA去拟合非高斯分布的数据，它的预测效果是不可捉摸的，效果可能好也可能不好。

总结

对p(y|x)进行建模的算法称为判别学习算法，例如逻辑回归；对p(x|y)进行建模的算法称为生成学习算法，例如高斯判别分析(GDA)
对一个均值为μ，协方差矩阵为Σ的多元正态分布，μ值决定了中心的位置，Σ值决定了分布的幅度
如果p(x|y)服从多元正态分布，那么p(y|x)可表达成逻辑回归的形式；相反地，如果p(y|x)可表达成逻辑回归的形式，那么不代表p(x|y)服从多元正态分布
GDA需要更加严格的模型假设，当假设成立时，GDA的拟合效果比逻辑回归好，否则逻辑回归的拟合效果更好；逻辑回归的模型假设相对弱一点，这使得它在实际应用中更普遍

参考资料

斯坦福大学机器学习课CS229讲义 pdf
网易公开课：机器学习课程双语字幕视频

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,098评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,213评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,960评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,519评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,512评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,533评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,914评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,574评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,804评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,563评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,644评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,350评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,933评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,908评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,146评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,847评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,361评论 2赞 342