高级计量经济学 13：最大似然估计(下)

此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。

我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括证明和正文）做了修改。

仅供学习参考，请勿转载，侵删！

6 最大似然估计法
- 6.7 三类渐近等价的统计检验
  - 6.7.1 沃尔德检验（Wald Test）
  - 6.7.2 似然比检验（Likelihood Ratio Test，LR）
  - 6.7.3 拉格朗日乘子检验（Lagrange Multiplier Test，LM）
  - 6.7.4 总结
- 6.8 准最大似然估计法
- 6.9 对正态分布假设的检验
  - 6.9.1 画图观测法
  - 6.9.2 JB检验

$\S \text{ 第 6 章 } \S$

$\text{最大似然估计}$

6.7 三类渐近等价的统计检验

在计量经济学中，常常使用以下三类大样本下渐近等价的统计检验。对于线性回归模型，检验原假设为 $H_0: \boldsymbol\beta = \boldsymbol \beta_0$ ，其中 $\beta_{K\times1}$ 为未知参数， $\beta_0$ 已知，共有 $K$ 个约束。

6.7.1 沃尔德检验（Wald Test）

通过研究 $\beta$ 的无约束估计量 $\hat{\boldsymbol \beta}_U$ 和 $\boldsymbol \beta_0$ 的距离来进行检验

他检验的东西是我所估计出来的 $\hat{\boldsymbol \beta}_U$ 是否可能等于 $\boldsymbol \beta_0$

其基本思想是，如果 $H_0$ 正确，那么 $\left(\hat{\boldsymbol \beta}_U - \boldsymbol\beta_0\right)$ 与 $\boldsymbol 0$ 的距离应该不要很大（注意，这里是 $\left(\hat{\boldsymbol \beta}_U - \boldsymbol\beta_0\right)$ 和 $\boldsymbol 0$ 的距离）。Wald Test 统计量为：
$W=\left(\hat{{\boldsymbol\beta}}_{U}-{\boldsymbol\beta}_{0}\right)^{\prime}\left[\operatorname{Var}\left(\hat{{\beta}}_{v}\right)\right]^{-1}\left(\hat{{\boldsymbol\beta}}_{v}-{\boldsymbol\beta}_{0}\right) \stackrel{d}{\longrightarrow} \chi^{2}(K)$
其中， $K$ 为约束条件的个数（即解释变量的个数），其证明在高级计量第6、7期有，大家可以回顾（也可以在我的简书上看），我在这里多嘴说一下如何理解它。

我们从标量的情形开始。显然 $\left|\left(\hat{ \beta}_U - \beta_0\right)-0\right|$ 衡量了 $\left(\hat{ \beta}_U - \beta_0\right)$ 和 $0$ 的距离。但是，这有两个问题：

就算 $\left(\hat{ \beta}_U - \beta_0\right)$ 很大，可 $\hat{ \beta}_U$ 毕竟是个随机变量（ $\hat{ \beta}_U = \left( {\bf X'X}\right)^{-1}{\bf X}' y$ ，其中 $y$ 是抽样来的），所以这个“ $\left(\hat{ \beta}_U - \beta_0\right)$ 很大”的时间很有可能是一个偶然事件，也就是说我可能对这件事情并无把握。如何消除“偶然性”呢？方差是一个很好的工具，因为方差反映的是数据的波动程度，它直接度量了我对它的一种有无把握的程度。
$\left(\hat{ \beta}_U - \beta_0\right)$ 受 $\beta$ 度量单位的影响。比如十万人民币和十亿人民币所产生的 $\left(\hat{ \beta}_U - \beta_0\right)$ 区别会很大，所以急需一个将数据进行“标准化”的工具，而方差也是一个很好的工具。

由于出现了上面的两个困境，于是我们就很容易想到标量情形下 Wald Test 的表达式：
$t = \frac{\hat{\beta}_U - \beta_0 }{\mathrm{Var}\left(\hat{\beta}_U\right)}$
也就是：
$t = \frac{估计值-假想值}{估计值的标准差}$
的形式。

很容易拓展到向量的情形。如果我们要对多个参加进行检验，那么 $\hat{ \beta}_U$ 就变成了向量 $\hat{\boldsymbol \beta}_U$ ，此时 $\left|\left(\hat{ \boldsymbol\beta}_U - \boldsymbol\beta_0\right)-\boldsymbol 0\right|$ 虽然也可以反映两个向量之间的距离，但绝对值的数学性质并不良好，我们更多的是使用欧拉距离，也就是使用
$\sum_{i=1}^K \left[\left(\hat{ \boldsymbol\beta}_U - \boldsymbol\beta_0\right)-\boldsymbol 0\right]^2= \left[\left(\hat{ \boldsymbol\beta}_U - \boldsymbol\beta_0\right)-\boldsymbol 0\right]^\prime \left[\left(\hat{ \boldsymbol\beta}_U - \boldsymbol\beta_0\right)-\boldsymbol 0\right]$
的形式（二次型）。同样地，这个式子还没有解决把握和量纲的问题，于是我们也需要对它除以“标准差”。我们前面已经反复强调，在向量下的除法运算就是逆、向量下的方差就是协方差矩阵、向量下的二次函数就是二次型，那么于是我们就有：
$W=\left(\hat{{\boldsymbol\beta}}_{U}-{\boldsymbol\beta}_{0}\right)^{\prime}\left[\operatorname{Var}\left(\hat{{\beta}}_{v}\right)\right]^{-1}\left(\hat{{\boldsymbol\beta}}_{v}-{\boldsymbol\beta}_{0}\right) \stackrel{d}{\longrightarrow} \chi^{2}(K)$
这就是 Wald Test 统计量的来源。至于它如何收敛到 $\chi^2$ 分布，请移步高级计量第6、7期。

6.7.2 似然比检验（Likelihood Ratio Test，LR）

通常来说，无约束的似然函数最大值 $\ln L\left(\hat{{\boldsymbol\beta}}_{U}\right)$ 比有约束的似然函数最大值 $\ln L\left(\hat{{\boldsymbol\beta}}_{R}\right)$ 更大，这是因为无约束条件下的参数空间 $\Theta_U$ 显然比带约束的参数空间 $\Theta_R$ 更大，即： $\Theta_R \subseteq \Theta_U$ 。

LR的思想是，如果 $H_0$ 正确，那么 $\left[\ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) -\ln L\left(\hat{{\boldsymbol\beta}}_{R}\right)\right]$ 不应该很大。在 $H_0: \boldsymbol\beta = \boldsymbol \beta_0$ 正确下， $\hat{{\boldsymbol\beta}}_{R} = \boldsymbol \beta_0$ ，那么LR统计量就是：
$\mathrm{LR} \equiv-2 \ln \left[\frac{L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{L\left(\hat{\boldsymbol{\beta}}_{U}\right)}\right]=2\left[\ln L\left(\hat{\boldsymbol{\beta}}_{U}\right)-\ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)\right] \stackrel{d}{\longrightarrow} \chi^{2}(K)$
证明的方法是将LLF做二阶泰勒展开（因为MLE的一阶条件表明， $\frac{\partial \text{LLF}}{\partial \boldsymbol\beta} = s(\boldsymbol\beta;\boldsymbol y)=\boldsymbol 0$ ，可以看前一篇文章）。高级计量7 中的 $F$ 统计的似然比表达式就是按照这个原理设计的。

下面的证明我没有参考别的资料，我尽量做到严谨，推着玩玩儿。

证明：LR统计量。此证明书上然我们参考 Amemiya（1985，p.142），还告诉我们二阶展开即可，那我们就试试看。应用微分中值定理，存在一个 $\boldsymbol \beta^\star$ 处于 $\hat{\boldsymbol \beta}_U$ 和 $\boldsymbol\beta_0$ 之间，满足：
$\begin{split} \ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) = \ln L\left(\hat{{\boldsymbol\beta}}_{0}\right) &+ \left.\frac{\partial \ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) }{\partial \hat{{\boldsymbol\beta}}_{U}} \right|_{\boldsymbol \beta^\star} \left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)\\ &+ \left.\frac{1}{2!}\frac{\partial \ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) }{\partial \hat{{\boldsymbol\beta}}_{U} \partial \hat{{\boldsymbol\beta}}_{U}^\prime} \right|_{\boldsymbol \beta^\star} \left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) \end{split}$
把上面的式子用高级计量12中6.5.2的符号记，也就是：
$\begin{split} \ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) &= \ln L\left(\hat{{\boldsymbol\beta}}_{0}\right) \\&+ s(\boldsymbol\beta^\star;\pmb y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) \\&+ \frac{1}{2}\boldsymbol H(\boldsymbol\beta^\star;\boldsymbol y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) \end{split}$
由于我们知道最大化MLE时，要求一阶偏导恒为 $\boldsymbol0$ ，那么 $s(\boldsymbol\theta_0;\pmb y) = \boldsymbol0$ ，于是我们就有：
$\ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) = \ln L\left(\hat{{\boldsymbol\beta}}_{0}\right) + \frac{1}{2}\boldsymbol H(\boldsymbol\theta^\star;\boldsymbol y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)$
代入我们要证明的式子：
$\begin{split} 2\left[\ln L\left(\hat{\boldsymbol{\beta}}_{U}\right)-\ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)\right] &= 2\left[\ln L\left(\hat{{\boldsymbol\beta}}_{0}\right) + \frac{1}{2}\boldsymbol H(\boldsymbol\theta^\star;\boldsymbol y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) - \ln L\left(\hat{{\boldsymbol\beta}}_{0}\right)\right]\\ &=H(\boldsymbol\theta^\star;\boldsymbol y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) \end{split}$
现在我们转证：
$H(\boldsymbol\theta^\star;\boldsymbol y)\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)^\prime\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)\stackrel{d}{\longrightarrow} \chi^{2}(K)$
由于这里使用了依分布收敛的概念，所以我们要考察 $H(\boldsymbol\theta^\star;\boldsymbol y)$ 和 $\hat{\boldsymbol\beta}_{U}$ 在 $n\to\infty$ 的性质。回顾高级计量12，我们有：
$\sqrt{n}\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \boldsymbol{A}_{0}^{-1}\right)=N\left(\boldsymbol{0}, n\left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-1}\right)$
那么这暗示我们要搞一个 $\sqrt{n}$ ，于是我们转证：
$\frac{1}{n}H(\boldsymbol\theta^\star;\boldsymbol y)\left[\sqrt{n}\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)\right]^\prime \left[\sqrt{n}\left(\hat{\boldsymbol\beta}_{U} - \boldsymbol\beta_0 \right)\right]\stackrel{d}{\longrightarrow} \chi^{2}(K)$
下面的写法开始不严谨，不过逻辑链条是严谨的，于是：
$\frac{1}{n}H(\boldsymbol\theta^\star;\boldsymbol y)\left[N\left(\boldsymbol{0}, n\left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-1}\right)\right]^\prime \left[N\left(\boldsymbol{0}, n\left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-1}\right)\right]\stackrel{d}{\longrightarrow} \chi^{2}(K)$
把协方差矩阵抽出来，也就是：
$\frac{1}{n}H(\boldsymbol\theta^\star;\boldsymbol y)\left[\sqrt{n}\cdot \left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-\frac{1}{2}}\cdot N\left(\boldsymbol{0}, {\rm I}\right)\right]^\prime \left[\sqrt{n}\cdot \left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-\frac{1}{2}}\cdot N\left(\boldsymbol{0}, {\rm I}\right)\right]^\prime \stackrel{d}{\longrightarrow} \chi^{2}(K)$
也就是说，我们现在转证：
$H(\boldsymbol\theta^\star;\boldsymbol y) \left[\boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)\right]^{-1}\cdot \underbrace{ N(\boldsymbol 0, {\bf I})^\prime N(\boldsymbol 0, {\bf I})}_{\chi^2(K)} \stackrel{d}{\longrightarrow} \chi^{2}(K)$
于是我们发现现在 $(\cdot)^\prime(\cdot)$ 的结构已经满足一个 $\chi^2$ 分布了，现在我们的目标是把前面的系数变成1。在高级计量12里我们证明过（教材公式6.35最后一个等号）：
$H(\boldsymbol\theta^\star;\boldsymbol y) \stackrel{p}{\longrightarrow} \boldsymbol{I}\left(\boldsymbol{\beta}_{0}\right)$
于是我们就有：
$\sum_{i=1}^K N( 0,1) \sim \chi^2(K)$
这是一个就是 $\chi^2$ 分布的定义！

证毕。

6.7.3 拉格朗日乘子检验（Lagrange Multiplier Test, LM）

考虑有约束条件的对数似然函数最大化问题：
$\max_{\tilde{\boldsymbol\beta}} \ln L\left(\tilde{\boldsymbol\beta}\right),\quad s.t.\boldsymbol\beta_0 = \boldsymbol\beta_0$
引入拉格朗日函数：
$\max _{\tilde{\boldsymbol\beta}, \boldsymbol\lambda}\mathcal L = \max _{\tilde{\boldsymbol\beta}, \boldsymbol\lambda} \ln L(\tilde{\boldsymbol{\beta}})-\boldsymbol\lambda^{\prime}\left(\tilde{\boldsymbol{\beta}}-\boldsymbol{\beta}_{0}\right)$
其中， $\boldsymbol\lambda$ 为拉格朗日乘子向量，如果 $\hat{\boldsymbol\lambda}\approx \boldsymbol 0$ ，那么说明此约束条件不紧（tight）或者不是硬约束（binding constraint），加上这个约束条件并不会使似然函数的最大值下降很多，即原假设 $H_0$ 很可能成立。根据上述问题的一阶条件，对 $\tilde{\boldsymbol\beta}$ 求导，有：
$\hat{\boldsymbol{\lambda}}=\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{\partial \tilde{\boldsymbol{\beta}}}$
即最优的拉格朗日乘子 $\hat{\boldsymbol\lambda}$ 等于似然函数在 $\hat{\boldsymbol{\beta}}_{R}$ 处的梯度向量，那么 $\text{LM}$ 统计量为：
$\mathrm{L} \mathrm{M} \equiv\left(\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{\partial \tilde{\boldsymbol{\beta}}}\right)^{\prime}\left[\boldsymbol{I}\left(\hat{\boldsymbol{\beta}}_{R}\right)\right]^{-1}\left(\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{\partial \tilde{\boldsymbol{\beta}}}\right) \stackrel{d}{\longrightarrow} \chi^{2}(K)$
其中， $\boldsymbol I\left(\hat{\boldsymbol{\beta}}_{R}\right)$ 为信息矩阵在 $\hat{\boldsymbol{\beta}}_{R}$ 处的取值。由于 $\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}\right)}{\partial \tilde{\boldsymbol{\beta}}}$ 有被称作得分函数（score function），所以这个检验也被称为得分检验（score test）；而 $\boldsymbol I\left(\hat{\boldsymbol{\beta}}_{R}\right)$ 正正是得分函数的协方差矩阵，这我们前面已经证明过了。直观来说，就是由于在无约束估计量 $\boldsymbol I\left(\hat{\boldsymbol{\beta}}_{U}\right)$ 处，得分函数为 $\boldsymbol0$ 向量，那么如果原假设 $H_0: \boldsymbol\beta = \boldsymbol \beta_R$ 成立，那么在约束估计量 $\hat{\boldsymbol{\beta}}_{R}$ 处，梯度向量也应该接近于 $\boldsymbol0$ 向量，即：
$\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{\partial \tilde{\boldsymbol{\beta}}} \approx \boldsymbol0$
而 $\text{LM}$ 统计量反应的就是此接近程度。

我已经不想再多嘴了，可是我还是要再再再一次啰嗦：对于一个 $n$ 维向量 $\boldsymbol X$ ，如何度量它与 $\boldsymbol 0$ 的距离呢？一个简单的方法是考虑用欧拉距离，即计算：
$\sum_{i=1}^n (X_i-0)^2 = \boldsymbol{X'X}$
不过这么度量有两个问题（参考 Wald Test），即我对此有没有把握、量纲的影响是否被消除。为了解决这两个问题，计量上统一采用除以方差的方法解决。向量的“方差”就是“协方差矩阵”、向量的“除法”就是“逆”、向量的二次方就是“二次型”，于是通用的做法就是考察：
$\boldsymbol X' {\rm Var}(\boldsymbol X) \boldsymbol X$
这就是 $\text{LM}$ 统计量的构造

6.7.4 总结

总之，Wald检验仅利用无约束估计的信息；LM检验仅使用有约束估计的信息；LR检验同时利用了有约束和无约束估计的信息。在原假设为 $H_0: \boldsymbol\beta = \boldsymbol \beta_0$ 下，我总结了下表：

检验方法	使用信息	考察对象	思想
Wald	无约束回归	回归系数	$\hat{\boldsymbol{\beta}}$ 离 $\hat{\boldsymbol{\beta}}_{0}$ 应该不太远
LR	有约束和无约束回归	似然函数	$\left[\ln L\left(\hat{{\boldsymbol\beta}}_{U}\right) -\ln L\left(\hat{{\boldsymbol\beta}}_{R}\right)\right]$ 不应该很大
LM	约束	得分函数	带约束的的得分函数 $\frac{\partial \ln L\left(\hat{\boldsymbol{\beta}}_{R}\right)}{\partial \tilde{\boldsymbol{\beta}}}$ 应该接近 $\boldsymbol 0$

在大样本下，三种检验是渐近等价的；在小样本下， $\text{Wald}\geqslant\text{LR}\geqslant\text{LM}$ 。

另外，如果不对模型的具体概率分布作假设，则无法得到似然函数，于是就一般没有办法使用 $\text{LR}$ 检验和 $\text{LM }$ 检验；不过 $\text{Wald}$ 检验依然可以使用。所以 $\text{Wald}$ 检验的使用范围最广。

6.8 准最大似然估计法

如果随机变量不服从正态分布，却使用了以正态分布为前提的最大似然估计法，该估计量仍有可能是一致的！

定义使用不正确的似然函数而得到的最大似然估计，称为准最大似然估计（Quasi MLE, QMLE）或伪最大似然估计（Pseudo MLE）。

之所以在某些情况下可以“歪打正着”地得到一致估计的准最大似然估计，是因为 MLE 也可以被视为 GMM，而后者并不需要对随机变量的具体分布作出假定（见教材第10章）。也就是说，虽然 MLE 要求随机变量服从正态分布，不过这个假定其实可以稍微放松。如果 QMLE 满足以下条件，那么它依然是一致估计量：

模型设定的概率密度属于线性指数分布族（linear exponential family），即概率密度可以写成
$f(y ; \boldsymbol{\theta})=\frac{p(y) \mathrm{e}^{\prime(\boldsymbol{\theta})}}{q(\boldsymbol{\theta})}$
的形式。正态分布、二项分布（Probit 和 Logit 回归）、泊松分布（泊松回归）、负二项分布（负二项回归）、 $\Gamma$ 分布（久期分析）、逆高斯分布等，都是这一类。
条件期望 ${\rm E}(y|\boldsymbol x)$ 的函数形式设定正确

然而，更一般的情况下，QMLE 并非一致估计，比如 14 章的 Tobit 回归。就算 QMLE 恰巧为一致估计，但其渐近方差也通常不是一致估计（即参数估得准，不过参数的不确定性估不准）。

假设正确的对数似然函数为 $\ln L(\boldsymbol\theta;\boldsymbol y)$ 而被误设为 $\ln L^\star(\boldsymbol\theta;\boldsymbol y)$ ，那么我们称后者为准对数似然函数（pseudo log likelihood function, PLLF）。最大化 $\ln L^\star(\boldsymbol\theta;\boldsymbol y)$ 的结果也就是 QMLE 估计量：
$\hat{\boldsymbol{\theta}}_{{QMLE}}=\arg \max \ln L^{*}(\boldsymbol{\theta} ; \boldsymbol{y})$
类似于 MLE 一致性的证明步骤，我们可以证明 $\hat{\boldsymbol{\theta}}_{{QML}} \stackrel{p}{\longrightarrow} \boldsymbol{\theta}^{*}$ ，其中 $\boldsymbol{\theta}^{*}$ 称为 准真实值（peseudo-true value），但通常 $\boldsymbol{\theta}^{*} \ne \boldsymbol{\theta}_0$ 。对于 $\hat{\boldsymbol{\theta}}_{{QMLE}}$ 的大样本分布，可以用类似于 MLE 的推导证明：
$\sqrt{n}\left(\hat{\boldsymbol{\theta}}_{\mathrm{ML}}-\boldsymbol{\theta}^{*}\right) \stackrel{d}{\longrightarrow} N\left(\boldsymbol{0}, \boldsymbol{A}_{0}^{*-1} \boldsymbol{B}_{0}^{*} \boldsymbol{A}_{0}^{*-1}\right)$
其中， $\boldsymbol{A}_{0}^\star$ 和 $\boldsymbol{B}_{0}^\star$ 的表达式类似于 $\boldsymbol{A}_{0}$ 和 $\boldsymbol{B}_{0}$ 的表达式。不过，由于 $\ln L^\star(\boldsymbol\theta;\boldsymbol y)$ 并非真实的 LLF，所以信息矩阵等式不再成立，于是通常 $\boldsymbol{A}_{0}^\star \ne \boldsymbol{B}_{0}^\star$ ，这为渐近正态的协方差矩阵 $\boldsymbol{A}_{0}^{*-1} \boldsymbol{B}_{0}^{*} \boldsymbol{A}_{0}^{*-1}$ 的进一步简化造成了麻烦。

在我们很有把握 $\boldsymbol{\theta}^{*} = \boldsymbol{\theta}_0$ 的条件下，我们可以用基于 $\boldsymbol{A}_{0}^{*-1} \boldsymbol{B}_{0}^{*} \boldsymbol{A}_{0}^{*-1}$ 的标准误差来做假设检验，这被称为胡贝尔-怀特稳健标准误（Huber-White robust standard errors）。这个标准误也被称为稳健标准误，因为它与第 5 章介绍的异方差稳健标准误是一致的。需要注意的是，如果 $\hat{\boldsymbol{\theta}}_{{QML}} \stackrel{p}{\longrightarrow} \boldsymbol{\theta}^{*} \ne \boldsymbol{\theta}_0$ ，就算使用稳健的标准误也无济于事，你首先要考虑的是估计的一致性问题。

6.9 对正态分布假设的检验

6.9.1 画图观察法

对线性回归模型，如果扰动项不服从正态分布，则虽然OLS 估计量是一致的且服从正态分布，但是无法使用小样本 OLS 进行假设检验。在这种情形下，就需要对扰动项是否服从正态分布进行检验。当然，如果是大样本，那就可以用渐近正态的理论处理，我们也不关心扰动项是否服从正态分布了。

不过，对非线性模型使用 MLE 时，由于正态分布假定时推导 MLE 的前提，故而检验扰动项是否服从正态分布可能就显得比较重要。

为了考察扰动是否正态，最直观的方法是画图。可以把残差画成直方图，然后用核密度估计方法得到光滑的曲线，然后与正态分布的曲线进行对比。一个核密度估计的例子如下图所示：

这是我为了测试 AI 技术而需要产生许多样本时的一个例子

在左图，我对一定时间内的道琼斯指数收益率 hist 了一下，然后生成了其核密度曲线1。通过赌轮盘算法从核密度函数中抽样，可以得到许多新的样本

在右图，我对这些新的样本生成核密度曲线2，并与原先的核密度曲线1对比，发现两者十分接近。这说明通过赌轮盘算法仿真抽样出来样本与其真实的分布十分接近

这种操作在做仿真时可能经常用到，以上操作基于 Python

另外一个观察扰动项是否正态的方法，可以用一种叫分位数-分位数图（Quantile-Quantile plot, QQ plot）的方法。如果残差来自正态分布，那么图上的散点应该集中在 $x=y$ 曲线上。

6.9.2 JB检验

当然，以上都只是对观察扰动项是否正态的主观方法，最终的结论仍要通过严格的假设检验。回顾第 2 章，随机变量的偏度和峰度分别为： ${E}[(X-\mu) / \sigma]^{3}$ 和 ${E}[(X-\mu) / \sigma]^{4}$ ，其中，超额峰度为 ${E}[(X-\mu) / \sigma]^{4}-3$ 。于是，对于残差 $\{e_1,\cdots,e_n\}$ ，其偏度和超额峰度分别为
$偏度 = \frac{1}{n \hat{\sigma}^{3}} \sum_{i=1}^{n} e_{i}^{3} ,\quad 超额峰度= \left(\frac{1}{n \hat{\sigma}^{4}} \sum_{i=1}^{n} e_{i}^{4}\right)-3$
注意，其中 $\bar{e} = 0$ 。于是，对原假设 $H_0:扰动项正态$ 下，雅克-贝拉检验（Jarque and Bera, JB）证明了：
$\mathrm{JB}=\frac{n}{6}\left[\left(\frac{1}{n \hat{\sigma}^{3}} \sum_{i=1}^{n} e_{i}^{3}\right)^{2}+\frac{1}{4}\left(\frac{1}{n \hat{\sigma}^{4}} \sum_{i=1}^{n} e_{i}^{4}-3\right)^{2}\right] \stackrel{d}{\longrightarrow} \chi^{2}(2)$
由于 $\text{JB}$ 检验本质上是两个正态分布的平方差，从而它服从 $\chi^2(2)$ 。