单高斯模型SGM & 高斯混合模型GMM

一、正态分布

在了解高斯混合模型之前，我们先来看看什么是高斯分布，高斯分布大家应该都比较熟悉了，就是我们平时所说的正态分布，也叫高斯分布。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

正态分布的特点
集中性：正态曲线的高峰位于正中央，即均数所在的位置。
对称性：正态曲线以均数为中心，左右对称，曲线两端永远不与横轴相交。
均匀变动性：正态曲线由均数所在处开始，分别向左右两侧逐渐均匀下降。

若随机变量 $X$ 服从一个数学期望为 $μ$ 、方差为 $σ^{2}$ 的正态分布，记为 $X \sim N(μ,σ^{2})$ 。其中期望值 $μ$ 决定了其位置，标准差 $σ$ 决定了分布的幅度。当 $μ$ = 0， $σ$ = 1时，正态分布是标准正态分布。

正态分布四个不同参数集的概率密度函数（红色线代表标准正态分布）

正态分布有极其广泛的实际背景，生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如，在生产条件不变的情况下，产品的强力、抗压强度、口径、长度等指标；同一种生物体的身长、体重等指标；同一种种子的重量；测量同一物体的误差；弹着点沿某一方向的偏差；某个地区的年降水量；以及理想气体分子的速度分量，等等。一般来说，如果一个量是由许多微小的独立随机因素影响的结果，那么就可以认为这个量具有正态分布（见中心极限定理）。从理论上看，正态分布具有很多良好的性质，许多概率分布可以用它来近似；还有一些常用的概率分布是由它直接导出的，例如对数正态分布、t分布、F分布等。

二、高斯模型

高斯模型有单高斯模型（SGM）和混合高斯模型（GMM）两种。

1、单高斯模型（SGM）

概率密度函数服从上面的正态分布的模型叫做单高斯模型，具体形式如下：

当样本数据 $x$ 是一维数据（Univariate）时，高斯模型的概率密度函数为：

$p(x;\mu ,\sigma )=\frac{1}{ \sqrt{2 \pi} \sigma } \exp( - \frac{(x-\mu)^{2}}{{2\sigma ^{2}}} )$
其中： $μ$ 为数据的均值， $\sigma$ 为数据的标准差。

当样本数据 $\mathbf{x}$ 是多维数据（Univariate）时，高斯模型的概率密度函数为：
$p( \mathbf{x} ; \boldsymbol{ \mu} , \Sigma )=\frac{1}{(2 \pi)^{\frac{d}{2}}\mid \Sigma \mid ^{\frac{1}{2}}} \exp \left ( - \frac{( \mathbf{x} - \boldsymbol{ \mu} )^{T}\Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} )}{{2}} \right )$
其中： $\boldsymbol{\mu}$ 为数据的均值， $\Sigma$ 为协方差，d为数据维度。

2、高斯混合模型（GMM）

高斯混合模型（GMM）是单高斯概率密度函数的延伸，就是用多个高斯概率密度函数（正态分布曲线）精确地量化变量分布，是将变量分布分解为若干基于高斯概率密度函数（正态分布曲线）分布的统计模型。

用通俗一点的语言解释就是， $K$ 个单高斯模型混合在一起，生成的模型，就是高斯混合模型。这 $K$ 个子模型是混合模型的隐变量（Hidden variable）。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

GMM是工业界使用最多的一种聚类算法。它本身是一种概率式的聚类方法，假定所有的样本数据X由K个混合多元高斯分布组合成的混合分布生成。

高斯混合模型的概率密度函数可以表示为：
$p(x|\theta)=\sum_{k=1}^{K}\alpha _{k}\phi (x|\theta _{k})$
其中：
$\alpha_{k}$ 是观察数据属于第 $k$ 个子模型的概率， $\alpha_{k}\geq 0 ，\sum_{k=1}^{K}\alpha_{k}=1$ ；
$\phi (x|\theta _{k})$ 是第 $k$ 个的单高斯子模型的概率密度函数， $\theta _{k}=(\mu_{k},\sigma _{k})$ 或
$\theta _{k}=(\boldsymbol{\mu}_{k},\Sigma _{k})$ ，具体函数见上方单高斯模型的概率密度函数。

三、参数估计

参数估计有多种方法，有矩估计、极大似然法、一致最小方差无偏估计、最小风险估计、同变估计、最小二乘法、贝叶斯估计、极大验后法、最小风险法和极小化极大熵法等。最基本的方法是最小二乘法和极大似然法。

极大似然估计的思想是：随机试验有多个可能的结果，但在一次试验中，有且只有一个结果会出现，如果在某次试验中，结果w出现了，则认为该结果发生的概率最大。

极大似然估计求解参数步骤：

1）写出似然函数：
假设单个样本的概率函数为 $p(x;θ)$ ,对每个样本的概率函数连乘，就可以得到样本的似然函数
$L(θ)=\prod_{i=1}^{n}p(x_{i};θ)$

2）对似然函数取对数：
$lnL(θ)=\sum_{i=1}^{n}lnp(x_{i};θ)$
目的是为了让乘积变成加法，方便后续运算

3）求导数，令导数为0，得到似然方程：
$L(θ)$ 和 $lnL(θ)$ 在同一点取到最大值，所以可以通过对 $lnL(θ)$ 求导，令导数为零，实现同个目的

4）解似然方程，得到的参数即为所求

1、单高斯模型的参数估计

对于单高斯模型，可以使用极大似然估计（MLE）来求解出参数的值。

单高斯模型的对数似然函数为：

$J(\boldsymbol{ \mu},\Sigma) = ln \left [ \prod_{i=1}^{n} p( \mathbf{x}_{i} ; \boldsymbol{ \mu} , \Sigma ) \right ]$
$= \sum_{i=1}^{n} lnp( \mathbf{x}_{i} ; \boldsymbol{ \mu} , \Sigma )$
$= \sum_{i=1}^{n} ln \left [ \frac{1}{(2 \pi)^{\frac{d}{2}} \mid \Sigma \mid ^{\frac{1}{2}}} \exp \left ( - \frac{( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} )}{{2}} \right ) \right ]$
$= \sum_{i=1}^{n} \left [ -\frac{d}{2} ln(2 \pi) - \frac{1}{2} ln \mid \Sigma \mid - \frac{1}{2} ( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1} ( \mathbf{x} - \boldsymbol{ \mu} ) \right ]$
$= -\frac{nd}{2} ln(2 \pi) - \frac{n}{2} ln \mid \Sigma \mid - \frac{1}{2} \sum_{i=1}^{n} \left [( \mathbf{x} - \boldsymbol{ \mu} )^{T} \Sigma ^{-1}( \mathbf{x} - \boldsymbol{ \mu} ) \right ]$

上式分别对 $\boldsymbol{ \mu}$ 和 $\Sigma$ 求偏导数，然后令其等于0，可以得到对应的参数估计值：
$\hat{\mu } =\frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_{i}$
$\hat{\Sigma }=\frac{1}{n-1}\sum_{i=1}^{n}(\mathbf{x}_{i}-\hat{\mu })(\mathbf{x}_{i}-\hat{\mu })^{T}$

2、高斯混合模型的参数估计

如果依然按照上面的极大似然估计方法求参数

GMM的对数似然函数为：
$J(\boldsymbol{ \mu},\Sigma) = \sum_{i=1}^{n} ln (\sum_{k=1}^{K}\alpha _{k}\phi (x|\theta _{k}))$

对上式求各个参数的偏导数，然后令其等于0，并且还需要附件一个条件： $\alpha_{k}\geq 0 ，\sum_{k=1}^{K}\alpha_{k}=1$ 。
我们会发现，直接求导无法计算出参数。所以我们需要用其它方式去解决参数估计问题，一般情况下我们使用的是迭代的方法，用期望最大算法（Expectation Maximization，EM）进行估计。

EM算法的具体原理以及示例见我的另外一篇文章。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345