在统计的世界,我们面临的总是只有样本,Where there is sample, there is uncertainty,正因为不确定性的存在,才使统计能够生生不息。传说统计学家、数学家和物理学家乘坐一列火车上旅行,路上看到草原上有一只黑羊,统计学家说,“基于这个样本来看,这片草原上所有的羊都是黑的”,数学家说,“只有眼前这只羊是黑的”,物理学家则说,“你们都不对,只有羊的这一面是黑的”。这是关于统计和其他学科的一个玩笑话,说明了统计的一些特征,比如基于样本推断总体。
一般情况下,总体永远都无法知道,我们能利用的只有样本,现在的问题是,样本该怎样利用呢?Bootstrap的奥义也就是:既然样本是抽出来的,那我何不从样本中再抽样(Resample)?Jackknife的奥义在于:既然样本是抽出来的,那我在作估计、推断的时候“扔掉”几个样本点看看效果如何?既然人们要质疑估计的稳定性,那么我们就用样本的样本去证明吧。
Bootstrap方法最初由美国斯坦福大学统计学教授Efron在1977年提出。作为一种崭新的增广样本统计方法,Bootstrap方法为解决小规模子样试验评估问题提供了很好的思路。
很多人会对Bootstrap这个名字感到困惑。英语Bootstrap的意思是靴带,来自短语:“pull oneself up by one′s bootstrap”,18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《巴龙历险记(或译为终极天将)》(Adventures of Baron Munchausen) 记述道:“巴龙掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来。”现意指不借助别人的力量,凭自己的努力,终于获得成功。在这里“bootstrap”法是指用原样本自身的数据抽样得出新的样本及统计量,根据其意现在普遍将其译为“自助法”。
Bootstrap的基本原理
现在想像一个可以分析随机程度的理想状态:假设我们有一台神奇的机器,这台机器拥有所有台湾博士生的薪水资料,因此我们可以不断从这台机器产生出一笔又一笔500名随机台湾博士生的薪水资料。每次的一笔500名博士生的资料我们就能得到一次新的估计量。假设我们用这台机器1000次我们就能得到1000个中位数的估计量,利用这1000个中位数估计量就能分析出这"样本中位数"估计的变异大小。
但在现实生活我们没有这台机器我们只有一笔资料,所以无法用这个方式去分析出估计式的随机大小。不过Bootstrap提供了一个机制可以逼近这台机器的运作原理!
Bootstrap就是从给定的资料里面再次重复抽样出一笔一样大小的资料(允许同样的一个资料点被抽到很多次: sample with replacement)。每一次Bootstrap都会产生一笔新的资料而我们可以用这笔新资料去得到一个新的估计式,不断地使用Bootstrap我们就可以得到好几个估计值,利用这些Bootstrap估计值我们就能计算估计式的变异大小。
Bootstrap这和那台理想机器的机制一样:那台机器是从"母体"去重复抽样而我们现在是从"样本"去重复抽样,你可以想像当样本数很大时样本数的分配与母体的分配非常相近,因此从两边抽样出来的误差大小应该也会相近因此Bootstrap是可行的。
在用bootstrap的话就是在回归分析里面选择bootstrap选项即可,你可以自己设置抽样次数,通常抽样至少要1000次,这时候你分析a和b参数的显著性就不看原来的显著性检验结果(sig)了,而是看bootstrap的置信区间,如果置信区间没有覆盖0,就是显著的。
bootstrap抽样功能需要比较新的spss版本才可以PROSCESS中介模型。
解读PROSCESS中介模型报表
( 1 )模式资讯
包含所使用的变量,及样本数。
( 2 ) X 对 M1 进行回归分析
在 PROCESS 的模式分析里,会依照架构图所有变量的因果关系,执行数个回归分析。
( 3 ) X+M1 对 M2 进行回归分析
( 4 ) X+M1+M2 对 M3 进行回归分析
( 5 ) Total effect model
由于选项里有勾选 Total effect model ,因此会执行 X 对 Y 的简单回归,当模式里未存在任何中介变项时, X 对 Y 的回归结果即为总效果。
LLCI、ULCI分别是置信区间的最低和最高值,一般是95%置信区间。如果用bootstrap法做的话,是否显著不看p值,而看置信区间是否包含0(一个负一个正,就是包含0,否则不包含),包含0则不显著。
( 6 ) Total effect of X on Y
当模式里未存在任何中介变项时, X 对 Y 的回归结果即为总效果。
( 7 ) Direct effect of X on Y
承第 6 点,在 X 对 Y 的整体影响效果下,当在模式中考虑了控制变项,可以把总效果拆解为直接效果与间接效果,所谓直接效果是指 X 不需透过任何一个中介变项对 Y 的影响效果,而间接效果则刚好相反,因此从这边可知,在 X 对 Y 的整体效果 .1008 中,有 .0656 属于直接影响效果。
( 8 ) Indirect effect(s) of X on Y ( Total )
承第 7 点,总效果扣除掉直接效果后,剩下的全部属于间接效果 .0352 ,其信赖区间未经过 0 ,表示间接总效果是达显著水准的。
( 9 ) Indirect effect(s) of X on Y
而在本例所介绍的模式中,间接效果共包含 3 条路径(请参见本篇第一页导论),报表中也针对这 3 条路径个别进行考验,其中 Ind2 的信赖区间未经过 0 ,表示这条路径的间接总效果是达显著水准的,至于 Ind2 为哪一条中介效果路径,于报表下方会再交代。
( 10 ) Compare indirect effects
配合操作的第 10 点,设定不同中介路径间的两两效果比较,此部分也必须利用信赖区间进行判断,当信赖区间经过 0 时,则代表两条中介路径的效果并无明显的差异,至于每一项检验所进行比较的路径,必须透过代号和报表下方的注解进行比对。
( 11 ) Indirect effect key
用来进行第 9 点与第 10 点进行检验时,比对说明为哪一条中介路径。