判别模型与生成模型

这个也就是后面很火的，GAN（生成式对抗网络）中生成模型G与判别模型D之间的互相对抗了。

参考博客判别模型和生成模型和Jerrylead，讲解的很清楚

本文思路：

1、什么是判别模型

2、什么是生成模型（jerrylead上对于GDA（生成式模型的一个应用））解释的可以）

3、判别模型与生成模型之间的关系，有谁能推导出谁，谁用的更广泛一些，二者的优缺点在哪

一、判别模型--Discriminative

1.1、判别模型的思想：

对条件概率p(y|x)建模，基本思想是在有限样本条件下，建立判别函数，直接研究预测模型。

比如说，要确定一只羊是山羊还是绵羊，判别模型的思想就是，从样本数据中学习到一个模型，这个模型可以根据这只羊的特征，直接预测出，这只羊是山羊还是绵羊的概率。比如，山羊的概率=p（山羊|胡子长度，角的大小等特征），绵羊的概率=p（绵羊|胡子长度，角的大小等特征）。或用1减去山羊概率。

1.2、判别模型的特点

又称为条件模型，或条件概率模型，估计的是条件概率分布。

主要特点：
寻找不同类别之间的最优分类面，反映的是异类数据之间的差异。
优点:
分类边界更灵活，比使用纯概率方法或生产模型得到的更高级
适用于较多类别的识别
判别模型的性能比生成模型要简单，比较容易学习
缺点：
不能反映训练数据本身的特性（模型只有一个，就只为了判别，不想生成式模型，每个模型代表了一类数据的具体有什么特征）。能力有限。
黑盒操作: 变量间的关系不清楚，不可视

1.3 常见的应用以及应用场景

常见的主要有：
逻辑回归，SVM，传统神经网络，最近邻等
主要应用：
图像、文本分类
多边界分析等

如何学习生成模型

前提

先明确，生成模型要求的是联合概率，是后验概率（已知y（类别）条件下x（特征向量）的分布）与先验概率的乘积

假设

明确此模型假设是什么：GDA的是已知y的条件下，特征向量符合多元高斯分布，NB的是已知y的条件下特征向量服从条件独立。

建模

1、‘’假设‘’已经知道==>得到两个后验概率的模型
2、‘’y‘’概率可以求出 ==>得到y先验概率的模型
3、找参数，参数就是上面三个模型中控制概率的参数（例如特征均值μ，方差 Σ等）
4、目标就是求这些参数

定义目标函数

1、一般都是，将极大似然函数定义为目标函数
2、等式右边是联合概率相乘，而每个联合概率又是后验概率与先验概率的乘积，后验概率受若干参数控制，先验概率受若干参数控制
3、目标就是求这些参数

利用最优化方法求解

求导，SGD等，求得参数的表达式

参数已知

各参数已知，可以利用第一步建立的模型进行预测了。把样例xi带入y=0的模型，带入y=1的模型，又p（y）已知，于是可以得到两个联合概率，那个大就是哪个

二、生成模型--Generative Model

2.1 生成模型的概念

又叫产生式模型，直接对数据进行建模。

比如说，要确定一只羊是山羊还是绵羊，可以根据已有的数据，山羊的特征，学习出一个山羊模型（模型里的各项数据就是山羊具有的特征），再根据绵羊的特征，学习出一个绵羊的模型。

然后提取这只羊的特征，放到山羊模型（这一步需要乘以p（山羊的概率）即p（y）），再看看此时概率是多少（这一步需要求得p（这只羊的特征| 山羊模型）即p（x|y））。

比如，提取这只羊的特征放到山羊模型中最终概率为
p（这只羊的特征 | 山羊）*p（山羊的概率）

图1 两个模型的统一性

由上面可以看出，利用生成模型求得参数使p(x|y)p(y)最大，等价于利用判别模型求得参数使p(y|x)最大，这是两个模型的统一性之处。

而由

因此有时称判别模型求的是条件概率，生成模型求的是联合概率（忽略了p(x)）。

2.2 生成模型的应用 —— 高斯判别分析（GDA）

具体的见jerrylead博客中第二小节高斯判别分析，讲的比较清楚易懂。

注意，不能因为公式多，或者资料上没讲，就乱了
步骤跟线性回归一样的，也是

1、先建模，想要预测的结果用参数表示
2、再定义出目标函数
3、利用最优化方法求得参数

高斯判别模型的假设：特征向量，符合多值正态分布（即胡子长度符合正态分布，羊角大小符合正态分布，另外的特征也都符合正态分布）

2.2.1 建模

生成模型，需要知道每一类的后验概率，对此进行建模（x|y=0,x|y=1）,还要知道先验概率y的分布。所以这个山羊问题共有三个公式。

所以高斯判别分析模型如下：

先验概率y服从伯努利分布（是山羊，不是山羊），此分布，由参数φ决定
不是山羊的条件下（y=0）样例x符合特征的概率 服从多值正态分布，此分布由特征均值μ₀，方差Σ 决定
是山羊的条件下（y=1）样例x符合特征的概率 服从多值正态分布，此分布由特征均值μ₁，方差Σ 决定

把上面模型转换成对应的概率密度函数，即为

上面就是此问题需要的模型，此模型预测结果需要由参数μ₀，μ₁，Σ，以及φ决定。
所以下一步，应该定义目标函数，然后用最优化方法得到问题的解。

2.2.2 定义目标函数

想要学习到参数使得预测的准确率最高，想到用最大似然估计法，于是可以得到目标函数
再根据上面的求‘’利用生成模型求得参数使p(x|y)p(y)最大‘’也就是求得参数使联合分布最大，于是得到最大似然估计：

有两个不同的特征均值，但假设协方差相同，反映在图上就是不同模型中心位置不同，但形状相同。这样就可以用直线来进行分隔判别。

2.2.3 利用优化方法求得参数值

目标函数对各个参数求偏导为零即可得到参数估计。
这里稍微推导一下φ：

剩下两个参数类似。并且，参数的实际意义是可以根据表达式理解出来的。也就是最接近似然函数的情况下，参数的理想状况。

比如，这里的φ代表类别是1的概率，就等于样本中y=1对的个数除以样本总数m。

2.3生成模型的优缺点

主要特点：
一般主要是对后验概率建模
优点:
实际上带的信息要比判别模型丰富，
研究单类问题比判别模型灵活性强
数据量少也可以使用
缺点：
学习和计算过程比较复杂
常见的主要有：
Gaussians
Naive Bayes
Markov random fields
主要应用：
NLP等

三、生成模型与判别模型的关系与主要对比

3.1

生成模型能推出判别模型，反之，则不行。
原因：
----因为生成模型有着更强的假设条件和约束。

比如，生成模型的数据特征要符合多值正态分布，也可由贝叶斯公式推到判别模型去。

但是，判别模型中，特征不符合多值正态分布，那么就不能应用生成模型来做。

3.2 举例说明：GDA 与 logistic 回归

3.2.1

如果认定训练数据满足多值正态分布（多元高斯分布），比如山羊的胡子长度，角的大小，毛的长短。。。那么GDA能够在训练集上是最好的模型，此时GDA比LR要好，而且所需要的训练集不需要太大，因为能比较快的抓住标签y的特征。

3.2.2

然而，我们往往事先并不知道训练数据满足什么样的分布，比如房价对应的特征向量----地点，卧室个数，邻居素质等。
不能对X做很强的假设，此时，我们知道逻辑回归的条件假设要弱于GDA，所以我们会采用逻辑回归方法。（这也是一般情况下，更多的采用判别模型的原因），但是相比之下，可能会需要比GDA要大的训练集。

最后编辑于：2018.03.10 14:43:04

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,636评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,890评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,680评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,766评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,665评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,045评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,515评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,182评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,334评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,274评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,319评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,002评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,599评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,675评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,917评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,309评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,885评论 2赞 341