参数的贝叶斯估计

介绍
第一部分参数方法——类密度模型参数估计
第二部分监督学习——分类（基于似然的方法）
第三部分监督学习——分类（基于判别式的方法）（参数方法——判别式参数估计）
第四部分监督学习——回归
第五部分监督学习——关联规则
第六部分维度规约（特征的提取和组合）
第七部分半参数方法
第八部分非监督学习——聚类
第九部分非参数方法——密度估计
第十部分非参数方法——决策树实现的判别式
第十一部分多层感知器——非参数估计器
第十二部分局部模型
第十三部分支持向量机与核机器
第十四部分隐马尔科夫模型
第十五部分参数的贝叶斯估计
第十六部分集成学习——组合多学习器
第十七部分增强学习
第十八部分机器学习实验
第十九部分特征工程与数据预处理

在贝叶斯方法中，把参数看做具有某种概率分布的随机变量，对参数的这种不确定性建模。
在极大似然估计中，把参数看做未知常数，取最大化似然 $l(\theta|X)\equiv p(X|\theta)=\prod_{t=1}^N p(x^t|\theta)$ 的参数为估计值。但在使用小样本时，极大似然估计可能是很差的估计，在不同的训练集上求得的参数相差较大，具有较大方差。
在贝叶斯估计中，利用估计 $\theta$ 具有不确定这一事实，不是估计单个 $\theta$ ，而是通过估计分布 $p(\theta|X)$ ，加权使用所有的 $\theta$ 。也就是分摊估计的不确定性。

在估计 $p(\theta|X)$ 时，可以利用我们可能具有的关于参数值的先验信息 $p(\theta)$ 。尤其在使用小样本时，先验信息很重。使用贝叶斯规则，将先验与似然结合在一起，来计算后验 $p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}$ 。
这样，给定样本X，能够用它估计新实例 $x^{\prime}$ 的概率分布：
$p(x^{\prime}|X)=\frac{p(x^{\prime},X)}{p(X)} =\frac{\int p(x^{\prime},X,\theta)\mathrm{d}\theta}{p(X)} =\frac{\int p(\theta)p(X|\theta)p(x^{\prime}|\theta)\mathrm{d}\theta}{p(X)} =\int p(x^{\prime}|\theta)p(\theta|X)\mathrm{d}\theta$
如果 $\theta$ 是离散值，则用 $\sum_{\theta}$ 取代积分，后验则为样本X下每个 $\theta$ 的可能性。

这与《参数方法——类密度模型参数的估计》中介绍的贝叶斯估计不同，没有先估计确定的 $\theta_{Bayes}$ ，而是对所有可能的后验进行了积分，是全贝叶斯方法。

但大多数情况下这个积分很难计算的，除非后验有很好的形式（所以《参数方法——类密度模型参数的估计》中的方法，将参数归结到一点，不去计算这个积分）。

但贝叶斯估计还是有其独有的优点。首先先验帮助忽略了不太可能的 $\theta$ 值。此外，不是在预测时使用单个 $\theta$ ，而是生成可能的 $\theta$ 值集合，并在预测时全部使用，用可能性加权。
而最大后验（MAP）方法使用先验，则只利用了第一个优点。而对于极大似然（ML）方法，这两个优点都不具备。

对于很多无法计算的情况，通过近似计算来处理，包括马尔科夫链蒙特卡洛抽样，拉普拉斯近似、变分近似。

对离散分布的参数的贝叶斯估计

两类K=2
样本 $x^t=\{ 0,1 \}$ 服从伯努利分布，假定q 为样本为1 的概率。样本似然为 $p(X|q)=\prod_t q^{x^t}(1-q)^{1-x^t}$
需要对伯努利分布的参数 q 进行估计。采用贝塔分布 $beta(q|\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}q^{\alpha-1}(1-q)^{\beta-1}$ 描述参数的先验。其中 $\alpha$ ， $\beta$ 是先验分布的参数，称作超参数。 $\Gamma(x)$ 是伽马函数，定义为 $\Gamma(x)\equiv\int_o^{\infty}u^{x-1}e^{-u}\mathrm{d}u$ 。
这样给定了先验和似然，可以得到参数的后验
$p(q|X)\propto p(X|q)p(q|\alpha,\beta)\propto q^{A+\alpha-1}(1-q)^{N-A+\beta-1}$
其中 $A=\sum_tx^t$ ，N 是样本总量。可以看到先验和后验具有相同的的形式，称这样的先验为共轭先验。
通过后验，可以对超参数 $\alpha$ ， $\beta$ 做出这样的解释。A是N个样本中为1 的次数， $\alpha$ 可以看做在假想的 $\alpha+\beta$ 个样本中出现1 的次数。后验结合了实际样本和假想样本。当 $\alpha=\beta=1$ 时，有均匀的先验，并且后验和似然有相同的形状。随着两数的增大，及它们之差的增加，根据伽马分布，整个后验具有更小方差的分布。
多类K>2
对多类情况，样本服从多项式分布，记 $x^t_i=1$ 表示实例 $t$ 属于类 $i$ ，并且对 $\forall \ j\neq i,x^t_j=0$ 。多项式分布的参数为 $\mathbf{q}=[q_1,q_2,\cdots,q_K]^T$ ，满足 $q_i\geq0$ ， $\sum_iq_i=1$ 。
样本似然是 $p(X|\mathbf{q})=\prod_{t=1}^N\prod_{i=1}^Kq_i^{x_i^t}$ 。
对q的先验的描述是狄利克雷分布 $Dirichlet(\mathbf{q}|\boldsymbol{\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\cdots \Gamma(\alpha_K)}\prod_iq_i^{\alpha_i+N_i-1}$
其中 $\boldsymbol{\alpha}=[\alpha_1,\cdots,\alpha_K]^T$ 是先验的参数， $\alpha_0=\sum_i\alpha_i$ 。同样到处后验有
$p(\mathbf{q}|X)\propto p(X|\mathbf{q})p(\mathbf{q}|\boldsymbol{\alpha})\propto\prod_iq_i^{\alpha_i+N_i-1}$
其中 $N_i=\sum_{t=1}^Nx_i^t$ 。同样，后验和先验有同样的形式，都是 $q_i$ 的幂的乘积形式。并且同样地看到，后验组合了实际样本和假想样本。

对高斯分布的参数的贝叶斯估计

一元高斯分布的参数估计

考虑样本来自一元高斯分布， $p(x)\sim N(\mu,\sigma^2)$ ，分布的参数 $\mu$ ， $\sigma^2$ 是需要估计的。样本似然是 $p(X|\mu,\sigma^2)=\prod_t\frac1{\sqrt{2\pi}\sigma}\exp[-\frac{(x^t-\mu)^2}{2\sigma^2}]$

在未知均值，已知方差的情况下。均值 $\mu$ 的共轭先验是高斯的， $p(\mu)\sim N(\mu_0,\sigma_0^2)$ ，后验是 $p(\mu|X)\propto p(\mu)p(X|\mu)\sim N(\mu_N,\sigma_N^2)$
其中 $\mu_N=\frac{\sigma^2}{N\sigma^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}m$ ， $\frac1{\sigma_N^2}=\frac1{\sigma_0^2}+\frac N{\sigma^2}$ 。 $m=\frac{\sum_tx^t}N$ 是样本均值。
可以看到，后验均值是先验均值和样本均值的加权和。当样本规模N或先验的方差 $\sigma_0^2$ 大时，后验的均值越接近样本均值 m ，后验更多地依赖样本提供的信息。而当 $\sigma_0^2$ 较小时，即当 $\mu$ 的先验的不确定性较小时，先验 $\mu_0$ 具有更大的影响。
方差方面，当先验方差 $\sigma_0^2$ 更小，或样本量N更大时，后验方差 $\sigma_N^2$ 更小。
通过在后验（在 $\mu$ ）上积分，得到 x 的分布
$p(x|X)=\int p(x|\mu)p(\mu|X)\mathrm{d}\mu\sim N(\mu_N,\sigma_N^2+\sigma^2)$
对于方差为未知的情况，为了推导的方便，使用精度 $\lambda\equiv \frac1{\sigma^2}$ ，方差的倒数来描述方差。重写样本似然有 $p(X|\lambda)=\prod_t\frac{\lambda^{1/2}}{\sqrt{2\pi}}\exp[-\frac{\lambda}{2}(x^t-\mu)^2]=\lambda^{N/2}(2\pi)^{-N/2}\exp[-\frac{\lambda}{2}\sum_t(x^t-\mu)^2]$
参数 $\lambda$ 的共轭先验是伽马分布
$p(\lambda)\sim gamma(a_0,b_0)= \frac1{\Gamma(a_0)}b_0^{a_0}\lambda^{a_0-1}\exp({-b_0\lambda})$ 。
其中 $a_0\equiv v_0/2,b_0\equiv (v_0/2)s_0^2$ ，其中 $s_0^2$ 是方差的先验估计， $v_0$ 是先验的影响程度，类似于假想样本的大小。
后验也是伽马分布 $p(\lambda|X)\propto p(X|\lambda)p(\lambda)\sim gamma(a_N,b_N)$ ，其中
$a_N=a_0+\frac N2=\frac{v_0+N}2$ ， $b_N=b_0+\frac N2s^2=\frac{v_0}2s_0^2+\frac N2s^2$
$s^2=\frac {\sum_t(x^t-\mu)^2}N$ 是样本方差。
于已知方差的情况一样，后验的估计是先验和样本统计量的加权和。
当均值和方差均未知时，需要联合后验 $p(\mu,\lambda)=p(\mu|\lambda)p(\lambda)$ （仍用 $\lambda$ 的形式来反应方差）。其中，方差先验 $p(\lambda)\sim gamma(a_0,b_0)$ ，均值先验 $p(\mu|\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})$ 。 $\kappa_0$ 也可以看做假想样本的大小，反应 $\lambda$ 的影响程度。
这种情况下的联合共轭先验称为正态-伽马分布
$p(\mu,\lambda)\sim N(\mu_0,\frac1{\kappa_0\lambda})\centerdot gamma(a_0,b_0)$
后验是 $p(\mu,\lambda|X)\sim N(\mu_N,\frac1{\kappa_N\lambda})\centerdot gamma(a_N,b_N)$
其中 $\kappa_N=\kappa_0+N$ ， $\mu_N=\frac{\kappa_0\mu_0+N m}{\kappa_N}$ ， $a_N=a_0+\frac N2$ ， $b_N=b_0+\frac N2s^2+\frac{\kappa_0N}{2\kappa_N}(m-\mu_0)^2$
在后验上积分，得到对x的概率分布估计：
$p(x|X)=\iint p(x|\mu,\lambda)p(\mu,\lambda|X)\mathrm{d}\mu\mathrm{d}\lambda\sim t_{2a_N}(\mu_N,\frac{b_N(\kappa_N+1)}{a_N\kappa_N})$
是一个具有给定均值和方差的、自由度为 $2a_N$ 的 $t$ 分布。

多元高斯分布的参数估计

对多元变量样本，与一元样本的方法相同，只是使用了多元高斯分布 $p(\mathbf{x})\sim N_d(\boldsymbol{\mu},\boldsymbol{\Lambda})$ 。其中 $\Lambda\equiv \boldsymbol{\Sigma}^{-1}$ 是精度矩阵。
对于均值，使用多元高斯先验 $p(\boldsymbol{\mu}|\boldsymbol{\Lambda})\sim N_d(\boldsymbol{\mu}_0,\frac1{\kappa_0}\boldsymbol{\Lambda})$
对于精度矩阵，使用多元版本的伽马分布（又称Wishart分布）先验 $p(\boldsymbol{\Lambda})\sim Wishart(v_0,\mathbf{V}_0)$ 。

对函数参数的贝叶斯估计

同上面概率分布的参数一样，对函数参数的估计，同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验，再求积分。

回归函数

考虑线性回归模型 $r=\boldsymbol{\omega}^T\mathbf{x}+\epsilon$ ，其中 $\epsilon \sim N(0,\frac1{\beta})$ ， $\beta$ 是噪声的精度。
模型的参数是权重 $\boldsymbol{\omega}$ ，记样本为 $X=\{\mathbf{x}^r, r^r\}_{t=1}^N$ ，其中 $\mathbf{x}\in R^d$ ， $r^t\in R$ 。将样本记为输入矩阵和期望输出向量两部分 $[\mathbf{X},\mathbf{r}]$ 。
给定输入的输出有概率分布 $p(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta)\sim N(\boldsymbol{\omega}^T\mathbf{x},\frac1{\beta})$

在贝叶斯估计的情况下，为参数 $\boldsymbol{\omega}$ 定义一个高斯先验 $p(\boldsymbol{\omega})\sim N(0,\frac1{\alpha}\mathbf{I})$ 。对于后验，可得到 $p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta) p(\boldsymbol{\omega})\sim N(\boldsymbol{\mu}_N,\boldsymbol{\Sigma_N})$ 。
其中 $\boldsymbol{\mu}_N=\beta\boldsymbol{\Sigma_N}\mathbf{X}^T\mathbf{r}$ ， $\boldsymbol{\Sigma_N}=(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}$ 。
为了得到新输入 $\mathbf{x}^{\prime}$ 的输出 $r^{\prime}=\int(\boldsymbol{\omega}^T\mathbf{x}^{\prime})p(\boldsymbol{\omega}|X,\mathbf{r})\mathrm{d}\boldsymbol{\omega}$ 。

如果采用最大后验估计对参数做点估计，由于后验为高斯分布，则有 $\boldsymbol{\omega}_{MAP}=\boldsymbol{\mu}_N=\beta(\alpha\mathbf{I}+\beta\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{a}$

MAP等同于最大化后验的对数
$\begin{align} \log p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto & \ \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega})+\log p(\boldsymbol{\omega}) \\ =&-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2-\frac{\alpha}2\boldsymbol{\omega}^T\boldsymbol{\omega}+c \end{align} \tag{b}$

而同样作为点估计的极大似然估计，并没有利用先验信息。整体样本的对数似然为 $L(\boldsymbol{\omega}|X)\equiv \log (X|\boldsymbol{\omega})=\log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)+\log p(\mathbf{X})$ ，其中第二项相对于参数是常数。
把似然的第一项展开成
$\begin{align} \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)=&\log \prod_tp(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta) \\ =&-N\log(\sqrt{2\pi})+N\log\sqrt{\beta}-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2 \end{align}$
最大似然估计要最大化对数似然，等价于最小化最后一项，即最小化误差的平方和的参数 $\boldsymbol{\omega}$ 。误差平方和为 $E=\sum_{t=1}^N(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2=(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})^T(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})=\mathbf{r}^T\mathbf{r}-2\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{r}+\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\omega}$
关于 $\boldsymbol{\omega}$ 求导并令其等于零，可得到
$\boldsymbol{\omega}_{ML}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{r} \tag{c}$

对于一般模型 $g(\mathbf{x}|\boldsymbol{\omega})$ ，不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地，一样可通过最小化误差平方和 $E(X|\boldsymbol{\omega})=\sum_t[r^t-g(\mathbf{x}|\boldsymbol{\omega})]^2$ 求得最小二乘估计子 $\boldsymbol{\omega}_{LSQ}$ ，来计算输入的输出 $r^{\prime}=g(\mathbf{x}^{\prime}|\boldsymbol{\omega}_{LSQ})$ 。
或采用最大后验作为参数估计，由（b）的形式可写出一个适用于一般函数的增广误差函数
$E=\sum_t[r^t-g(\mathbf{x}^t|\boldsymbol{\omega})]^2+\lambda\sum_i\omega_i^2$
该目标函数比误差平方和多了一项，在统计学中称之为岭回归。是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。（对于线性模型来说，则避免（c）中 $X$ 矩阵中某个元素的一个很小的变动，会引起最后计算结果误差很大。正如MAP的解（a）比ML的解（c）在对角线增加了阐述想 $\alpha$ ，保证矩阵可逆。）

在《多层感知器》一节中的网络规模部分介绍的权重衰减（a），也有岭回归的形式，由第二项给每个 $\omega_i$ 一个靠近0的趋势。它们的目的都是降低模型复杂度，是正则化方法。

尽管岭回归的方法减少 $\sum_i\omega_i^2$ ，但并不强制单个 $\omega_i$ 为0。即它不能用于特征选择，不能用于确定哪些 $x_i$ 是冗余的。为此可使用 $L_1$ 范数的拉普拉斯先验
$p(\boldsymbol{\omega}|\alpha)=\prod_i\frac{\alpha}2\exp(-\alpha|\omega_i|)=(\frac{\alpha}2)^d\exp(-\alpha\sum_i |\omega_i|)$ ，而不是 $L_2$ 范数的高斯先验。
对应的后验不再是高斯的，MAP估计通过最小化下式得到：
$E_{lasso}(\boldsymbol{\omega}|X)=\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2+2\sigma^2\alpha\sum_i|\omega_i|$
其中 $\sigma^2$ 是噪声方差。这种方法做lasso（最小绝对值收缩和选择算子）回归。

具有噪声精度先验的回归——MCMC抽样

前一部分假设噪声服从给定的正态分布， $\epsilon \sim N(0,\frac1{\beta})$ 。如果 $\beta$ 也是未知的，那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样，对精度 $\beta$ 定义伽马先验 $p(\beta)\sim gamma(a_0,b_0)$ ，
进一步定义 $\boldsymbol{\omega}$ 基于 $\beta$ 的先验 $p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_0,\beta\boldsymbol{\Sigma_0})$ 。
如果 $\boldsymbol{\mu}_0=0$ ， $\boldsymbol{\Sigma_0}=\alpha\mathbf{I}$ ，则如前一部分所讨论的。
参数 $\boldsymbol{\omega}$ 和 $\beta$ 的共轭先验为正态-伽马先验：
$p(\boldsymbol{\omega},\beta)=p(\boldsymbol{\omega}|\beta)p(\boldsymbol{\omega})\sim normal-gamma(\boldsymbol{\mu}_0,\boldsymbol{\Sigma_0},a_0,b_0)$
可得后验 $p(\boldsymbol{\omega},\beta|\mathbf{X},\mathbf{r}) \sim normal-gamma(\boldsymbol{\mu}_N,\boldsymbol{\Sigma}_N,a_N,b_N)$

其中 $\boldsymbol{\Sigma}_N=(\mathbf{X}^T\mathbf{X}+\boldsymbol{\Sigma_0})^{-1}$
$\boldsymbol{\mu}_N=\boldsymbol{\Sigma}_N(\mathbf{X}^T\mathbf{r}+\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0)$
$a_N=a_0+\frac N2$
$b_N=b_0+\frac12(\mathbf{r}^T\mathbf{r}+\boldsymbol{\mu}_0^T\boldsymbol{\Sigma}_0\boldsymbol{\mu}_0-\boldsymbol{\mu}_N^T\boldsymbol{\Sigma}_N\boldsymbol{\mu}_N)$

这里采用马尔科夫链蒙特卡洛抽样（MCMC）来得到贝叶斯拟合。首先从 $p(\beta)\sim gamma(a_N,b_N)$ 中抽取一个 $\beta$ 值，然后从 $p(\boldsymbol{\omega}|\beta)\sim N(\boldsymbol{\mu}_N,\beta\boldsymbol{\Sigma}_N)$ 抽取 $\boldsymbol{\omega}$ 。
这样得到一个从后验 $p(\boldsymbol{\omega},\beta)$ 中抽样的模型，通过抽取多个模型，并取这些模型的平均，作为全贝叶斯积分的近似。

基函数或核函数的使用

对给定输入 $\mathbf{x}^{\prime}$ ，使用参数 $\boldsymbol{\omega}$ 的MAP估计(a)来计算输出
$r^{\prime}=(\mathbf{x}^{\prime})^T\boldsymbol{\omega}=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{X}^T\mathbf{r}=\sum_t \beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^tr^t$
这是对偶表示，其中 $\boldsymbol{\Sigma}_N$ 包含先验参数。如果像用支持向量机那样用训练数据表示参数，可以把预测输出写成输入和悬链数据的函数，我们可以把这表示为 $r^{\prime}=\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t$ 。
其中
$K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N\mathbf{x}^t \tag{d}$

考虑到可以使用非线性基函数 $\phi(\mathbf{x})$ 映射到新空间，在新空间中拟合线性模型（《核机器》）。这种情况下，作为线性核（d）的推广，其中的 d 维 $\mathbf{x}$ 变为 k 维的 $\phi(\mathbf{x})$ 。
$\begin{align} r^{\prime}=&\phi(\mathbf{x}^{\prime})^T\boldsymbol{\omega}\\ =&\sum_t\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)r^t\\ =&\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t \end{align}$
其中， $K(\mathbf{x}^{\prime},\mathbf{x}^t)=\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)$ ， $\boldsymbol{\Sigma}_N^{\phi}=(\alpha\mathbf{I}+\beta\Phi^T\Phi)^{-1}$ ， $\Phi$ 是 $\mathbf{X}$ 映射后的数据矩阵。这是 $\phi(\mathbf{x})$ 的空间中的对偶表示。

贝叶斯分类

在《监督学习——分类（基于判别式的方法）》中介绍的逻辑斯蒂判别式，对两类问题，假定线性可分，有 $P(C_1|\mathbf{x}^t)=y^t=sigmoid(\boldsymbol{\omega}^T\mathbf{x}^t)$ 。伯努利样本的对数似然为 $L(\mathbf{r}|\mathbf{X})=\sum_tr^t\log y_t+(1-r^t)\log(1-y^t)$ 。通过最大似然估计得到参数 $\boldsymbol{\omega}$ 的估计。
在贝叶斯方法中，假定参数的高斯先验 $p(\boldsymbol{\omega})=N(\mathbf{m}_0,\mathbf{S}_0)$ ，而后验的对数为
$\begin{align} \log p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})\propto & \ \log p(\boldsymbol{\omega})+\log p(\mathbf{r}|\boldsymbol{\omega},\mathbf{X}) \\ =&-\frac12(\boldsymbol{\omega}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\boldsymbol{\omega}-\mathbf{m}_0 )+\sum_t r^t \log y_t+(1-r^t)\log (1-y^t)+c \end{align}$
这个后验分布不再是高斯分布，并且不能精确地积分。这里使用拉普拉斯近似。

拉普拉斯近似
对某个分布 $f(x)$ ，首先找出 $f(x)$ 的众数 $x_0$ ，在拉普拉斯近似使用高斯函数 $q(x)$ 来近似它，其中均值中心为 $x_0$ ，方差由均值附近的 $f(x)$ 的曲率给定。
为了得到高斯的方差，考虑 $\log f(x)$ 在 $x=x_0$ 处的泰勒展开式 $\log f(x)=\log f(x_0)-\frac12a(x-x_0)^2+\cdots$
其中 $a\equiv -\frac{\mathrm{d}}{\mathrm{d}x^2}\log f(x)|_{x=x_0}$
泰勒展开式的一阶线性项为0，因为在众数处的导数为0。
忽略高阶项，由对数取指数，得到 $f(x)=f(x_0)\exp[-\frac a2(x-x_0)^2]$ 。从指数部分可知方差为 $\frac1{a^2}$ 。令由均值为 $x_0$ 。
得到 $f(x)$ 的高斯估计 $q(x)=\sqrt{\frac a{2\pi}}\exp[-\frac a2(x-x_0)^2]\sim N(x_0,\frac1a)$ 。

在多元情况下， $x\in R^d$ ，类似地有
$\log f(\mathbf{x})=\log f(\mathbf{x}_0)-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)+\cdots$
其中 $\mathbf{A}$ 是二阶导数的矩阵
拉普拉斯近似为 $q(\mathbf{x})=\frac{|\mathbf{A}|^{1/2}}{(2\pi)^{d/2}}\exp[-\frac12(\mathbf{x}-\mathbf{x}_0)^T\mathbf{A}(\mathbf{x}-\mathbf{x}_0)]\sim N_d(\mathbf{x}_0,\mathbf{A}^{-1})$

这样，根据多元情况的拉普拉斯近似，可估计类概率为 $P(C_1|\mathbf{x})=\int sigmoid(\boldsymbol{\omega}^T\mathbf{x})q(\boldsymbol{\omega})\mathrm{d}\boldsymbol{\omega}$ ，其中 $q(\boldsymbol{\omega})$ 是对后验 $p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})$ 的拉普拉斯近似。

模型的比较——贝叶斯方法

对给定数据集，可以用不同的模型去拟合它，每个模型有其各自的参数。以不同次数的多项式模型为例，不同的多项式对数据的拟合情况是不同的，存在过拟合和欠拟合的平衡问题。
本节对模型 $M$ 假设先验，来对不同的模型进行比较。

对给定数据X（N个实例），给定模型 $M$ 和参数 $\theta$ ，数据的似然是 $p(X|M,\theta)$ ，那么在所有 $\theta$ 上取平均，得到贝叶斯边缘似然（又称模型证据） $p(X|M)=\int p(X|\theta,M)p(\theta|M)\mathrm{d}\theta$
其中 $p(\theta|M)$ 是模型 M 的参数先验假设。
可以计算模型的后验 $p(M|X)=\frac{p(X|M)p(M)}{p(X)}$ 。其中 $p(M)$ 是模型的先验假设。

下面介绍如何利用模型的后验来选择模型。
对任意模型M，对来自M的所有可能的包含N个实例的数据集 $X_M$ ，有 $\sum_{X_M}p(X_M|M)=1$ 。
因为对复杂模型而言，它的泛化能力强于简单模型，其能拟合的数据集也就明显多于简单模型。也就是说，对给定的数据 $X^{\prime}$ ，复杂模型的 $p(X^{\prime}|M)$ 会较小。
如果有两个模型 $M_0$ 和 $M_1$ ，则可以比较它们的后验
$\frac{p(M_1|X)}{p(M_0|X)}=\frac{p(X|M_1)p(M_1)}{p(X|M_0)p(M_0)}$
其中两个边缘似然的比 $\frac{p(X|M_1)}{p(X|M_0)}$ 称作贝叶斯因子。如果两个模型的先验相等，则可直接通过贝叶斯因子选择后验较大的模型。

在贝叶斯方法中，也可不做模型选择，而是像参数的贝叶斯估计一样，平均各个模型的预测。用贝叶斯边缘似然加权，求得所有模型输出的加权和。

最后编辑于：2020.03.07 20:19:17

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345