可计算的估计量

满足Le Cam卷积定理前提的概率分布族称为正规参数族（Regular parametric family），囊括了大多数参数统计学常用的分布。然而，一元正规参数族 $f(x;\theta )$ 的 $\theta$ 是在开区间上定义的连续参数，其取值有不可数无穷多个。计算机可执行的算法均由有限多基本步骤组成，故算法个数至多为可数无穷。简单的推论即得绝大多数 $\theta$ 值都不存在可行算法。

但我们要估计参数值时，恰恰又要依赖可执行在观测样本 $x$ 上的算法（例：矩估计。这里默认样本自身的取值数有限），因此得出的只能是总数占沧海一粟的可计算值。用极特例的估计值去逼近一般情况下的不可计算值，能做到多好的精确度呢？这就是Vladimir Vovk在这篇论文中解决的问题：

原作者证明：令 $\left\{ T_{n} \right\}$ 为正规参数族 $f(x;\theta )$ 中 $\theta$ 值的一致可计算估计量，下标 $n$ 表示测得i.i.d样本数，则当 $\theta$ 值不可计算时恒有：

$P(|T_{n}-\theta |>c /\sqrt{ F(\theta ,n)} )\geq \Phi (-c)$

对所有充分大的 $n$ 成立。式中 $\Phi （）$ 为标准正态分布累积函数， $F（\theta ,n）$ 是 $n$ 个样本的总Fisher信息。c为可选的正数。

我们取c=3，查正态累积值表知 $\Phi (-3)$ 约为0.0015，故估计量对真值的偏离不超出 $3/\sqrt{F（\theta ,n）}$ 范围的概率至多到0.9985。换言之，在置信水平不低于99.85%的要求下，只能精确到 $\pm 3/\sqrt{F（\theta ,n）}$ 的区间。其他置信度的情形可自行代换c值类推，不论如何，精确程度决定于总Fisher信息的高低，Fisher信息量越小，估计范围就越大越失准。这性质同Cramer Rao不等式相仿，但这里对有偏的估计量同样适用。

此式的趣味之一在于：它只针对不可计算的参数值。若 $\theta _{0}$ 可计算，则有很自然的反例：令 $\forall n, T_{n} =\theta _{0}$ （与样本无关的常数），既然 $\theta _{0}$ 可计算，这也算是个可计算估计量（“一只停了的钟每天也准两次”）。显然它在 $\theta =\theta _{0}$ 处不遵守上述规律——它偏离真值的概率始终是0，与样本量n无关。但正如前文所叙，可计算的参数值是凤毛麟角，此种形同套用已知值作弊的做法被不可计算性阻挡了。

最后编辑于：2020.02.08 11:47:53