第八章 参数估计---一叶落而知秋
前言:二人(刘备和孙权),玄德(刘备)叹曰:“南人驾船,北人乘马,信有之也?”孙权闻言,自思曰:“刘备此言,劝我不惯乘马耳。”乃令左右牵马,飞身上马,笑谓玄德曰:南人不能乘马乎? --罗贯中小说《三国演义》
统计量:与样本有关的指标
参数:与总体有关的指标
参数估计:根据样本统计量来估计总体参数
估计方法如下
8.1 点估计
直接相等:计算样本均数、方差等作为总体均数、方差等的估计值。因为根据中心极限定理,多次重复抽样,所得多次统计量应该都是围绕总体参数波动的,多个统计量的均数应该等于总体参数。也就是,样本统计量理论上是总体参数的无偏估计。
点估计准确,但不可靠。区间估计可靠,但不精确。
8.2 最小二乘估计
least square estimation
应用:线性回归的参数估计
思想:求一个使得实际值与模型估计值之差达到最小的值,将其作为参数估计值。
思路:找到一条综合而言距离这些点最近的一条直线,认为是拟合数据最佳。
问题:距离求和,有正有负最后为0,
解决办法二:绝对值化再求和,方法为最小绝对值法。
扩展:最小二乘均数:含义为校正其他因素以后的均数
8.3最大似然估计
Fisher提出的点估计
应用:很多复杂方法,Logistic回归、Cox回归、多水平模型
思想:最大可能的一个估计。我们已有了样本数据,那么,当参数值等于多少时,最有可能出现已有的样本数据。
一般形式:L(π|样本数据)
解释:使上式最大的一个估计值,取对数,求导即为得分
8.4贝叶斯估计
区别:经典的频率统计中,参数是固定的,样本统计量是随机变量。贝叶斯统计认为,参数也是随机变量,服从某一概率分布的随机变量,重点研究参数的分布。
思想:根据已有的一些经验,然后收集数据,根据样本数据的结果进行调整,重新计算得到所谓的后验信息。
公式:
重点理解:
传统的概率分布一般是正向概率,如某病的患病率是1%,如果随机抽取一个人,那么此人患该病的概率有多大。而贝叶斯估计基于逆向概率,如在诊断疾病的例子中,人被该诊断指标诊断为患病,反推他真正患病的概率有多大;在司机撞墙时间中,如果一位司机被发现撞倒了墙,反推他是男性司机的概率有多大。
厉害!厉害!厉害!