计量中检验的一般套路是以 p-value 显著、拒绝原假设为理想情况,然而总有几个检验的假设是不按套路出牌的。Hansen 检验算一个,LR 检验算第二个。
Stata 应用
LR 检验可用于模型的比较和选择,用法与 Hausman 检验相似:
reg ... (model 1)
est store m1
reg ... (model 2)
lrtest m1 .
配合 AIC 和 BIC 信息指标使用:
lrtest m1 . ,stats
如何理解 Stata 汇报的结果?
回到检验本身,似然比是有约束条件下的似然函数最大值与无约束条件下似然函数最大值之比。因此,似然比检验的实质是比较有约束条件下的似然函数最大值与无约束条件下似然函数最大值。
似然比检验的思想是:如果参数约束是有效的,那么加上这样的约束不应该引起似然函数最大值的大幅度降低。因此:
H0:参数约束有效,有约束模型优于无约束模型。
H1:参数约束无效,无约束模型优于有约束模型。
划重点:不拒绝 H0 表明有约束模型更优。
约束模型与无约束模型是相对而言的,变量越少的模型受到的约束更多(βi=0),变量最多的模型才是无约束模型。
Stata 会自动识别哪个是约束模型,在检验结果第一行列出:ModelA nested in ModelB 。nested 意为嵌套,A 嵌套在 B 中,就是说 A 是约束模型,B 是无约束模型。
在截图的例子中,LR 具有统计显著性,因此拒绝原假设,选择无约束模型,即 gsem1。
注意,一般情况下,约束模型的 AIC 是小于无约束模型的。此处顺便补充一句,AIC 信息的判断标准是 " the smaller the better ",不关心绝对值,只关心相对值。因此,一个负的绝对值大的 AIC 是好于正的绝对值小的 AIC 的。
A good reference is Model Selection and Multi-model Inference: A Practical Information-theoretic Approach (Burnham and Anderson, 2004), particularly on page 62 (section 2.2):
" In application, one computes AIC for each of the candidate models and selects the model with the smallest value of AIC."
as well as on page 63:
" Usually, AIC is positive; however, it can be shifted by any additive constant, and some shifts can result in negative values of AIC. [...] It is not the absolute size of the AIC value, it is the relative values over the set of models considered, and particularly the differences between AIC values, that are important."
Source: https://stats.stackexchange.com/questions/84076/negative-values-for-aic-in-general-mixed-model
既然通常情况下,约束模型的 AIC 总是小于无约束模型的,那么凭借 AIC 信息就无法对两个模型进行有效的比较。这就显现出 LR 的价值:在 AIC 提供的信息不充分的情况下,如何比较有约束模型和无约束模型的优劣?LR 检验指出,如果参数约束有效,那么加上这样的约束不会引起似然函数最大值的大幅度降低。
模型(Refer:半碗鱼)
变量服从的分布里有未知参数,记其概率密度函数为,联合概率密度函数为。
原假设是对参数的假设,比如。
备择假设。
若参数有多种可能的取值,则假设,备择假设,其中,表示集合。
从假设可以看出,似然比检验(或概率比检验)这种推断常用于区分样本来自这类分布还是那类分布的参数检验问题。
我们知道,似然函数是个独立样本的联合概率密度函数,就是出现个样本为向量的概率,就是的连乘。因此有,通常取。
记成立时的似然函数为。它是原假设成立时,观察到样本点的可能性的一个度量(似然),即次取样的结果为向量的概率。
若参数有多种可能的取值(即假设为集合的情况),就用广义似然函数(用的极大似然估计代入计算可得)。
同理,记成立时的似然函数为(或广义似然函数)。它是在成立的条件下,次取样的结果为向量的概率。
定义为似然比。
显然,越大,备择假设成立观察到样本点的可能性越高,拒绝的概率越高。换句话说,样本 在条件下出现的概率 比 在条件下出现的概率 的比值越大,成立的可能性越高。
因此,我们设定临界值,当似然比时,我们就拒绝。临界值由似然比函数(往往是关于某个可知道分布的统计量T(X)的单调函数)结合给定的显著性水平值就能确定。