1. 关于P值的理解
P值可以理解为结论的风险大小,也就是数据得出的结果有多大的错误风险。P值越小,结论错误的风险越小,即结论越可靠;P值越大,错误的风险越大,即结论的可靠性差。P值是对已有结果的错误风险判断,与结果大小无关。目前不少医学杂志上仍然存在着关于P值的不规范用语,如P≤0.05认为“差异显著”,P≤0.01认为“差异非常显著”等。不要将P值大小与实际差异大小联系起来。这是一个值得注意的地方。
统计学中普遍以0.05作为假设检验的检验水准,这在手工计算的时代无疑是十分方便的。但到了计算机发达的今天,我们已经可以很轻松地计算出确切的P值,仅以P≤0.05认为有统计学意义已经不符合潮流了。P值等于0.049和等于0.051有什么差别呢?无非就是0.049比0.051多了0.2%支持结论的证据,但是少了这0.2%的证据就没有意义了吗?因此,最好给出确切的P值,以便展示更多的信息。
2. 关于significant的理解
很多书通常将significant翻译为“显著的”,这一词很容易让人将其与实际差别大小联系起来。实际上significant的含义应该是“非偶然的”,当根据样本资料所得结果是significant,实际上表明这一结果“不是偶然”得到的,更可能是真实存在这样一种结果。如显著性水准设为0.05,则P≤0.05表示根据样本数据计算的统计量只有不到5%的可能是偶然(也可以理解为抽样误差造成的)造成的,反过来,计算的统计量不大可能是偶然造成的,而更有可能是真实的情况。
3. 统计学意义与实际意义
当统计学分析结果显示P≤0.05时,我们的结论应该写为“组间差异有统计学意义”、“相关性有统计学意“、“影响有统计学意义”等,而不应该直接写成“组间有差异”、“变量间有相关”、“变量有影响”等。统计学结论与实际结论不同,它仅反映了从样本数据得到当前结果不是偶然的,但不反映实际结果的大小。
理论上,样本含量越大,越有可能得到小的P值。即使实际差别很小,大样本所得的P值也可能很小,于是问题来了:有的人便认为统计学是数字游戏。实际上并非如此,大样本P值很小,表明大样本的结果更为稳定可靠,恰恰反映了统计学的严谨性。比如某医生治愈1人,他据此宣称治愈率为100%,你会相信吗?但如果他治疗10000人仍然全部治愈,那他说治愈率100%,你会不会更相信?关键的问题是,当增加样本的时候,是不是还会保持原来的结果。治疗1人可以治愈,治疗第二个人一定会治愈吗?如果不断增加样本,结果仍然不变,统计学就会认为这种建立在大样本基础上的结果是可靠的,而不是偶然的,就会给出一个小P值。如果小样本的结果发现有差异,统计学会认为基于小样本的差异不一定可靠,因此会给出一个较大的P值,以提醒研究者谨慎下结论。
4. 单侧检验与双侧检验
单侧和双侧检验多用于组间比较。如果比较A、B两种药物的疗效,如果预期B药不可能不如A药,则可以采用单侧检验。这种情形也常用于新药与安慰剂比较。预期药物疗效不可能比安慰剂差,则可以用单侧检验。如果对两种药的疗效并不确定,B药可能优于A药,也可能劣与A药,则多采用双侧检验。
一般而言,如果事先对A、B两组了解不多,没有足够的证据了解A和B谁大谁小,就可选择双侧检验,如果事先了解谁大谁小,就可以选择单侧检验。值得注意的是:单侧检验和双侧检验的选择必须根据专业在数据分析之前确定。
对于同一资料,单侧检验比双侧检验更容易得到“有统计学意义”的结论,也就是更容易得到阳性结果。因此,切不可得到P值后再返回来选择有利的单侧检验或双侧检验,否则就真的是在玩统计学游戏了。
5. 关于把握度的理解
把握度又称检验效能(power),它表示如果确实有统计学意义的话,按照现有数据能够发现这种统计学意义的概率或把握度有多大。例如:两组比较中,power为0.8,表示如果两组确实有差异的话,那我们在分析中有80%的把握度能够得到”有统计学差异“的结论。
把握度通常用1-β表示,β即犯第二类错误的概率。把握度在平常的统计分析中一般不大为人所重视,但当数据出现阴性结果的时候,你就会发现它的用处了。你可以用把握度判断一下阴性结果是否因为例数太少,如果是,你可以继续增加样本含量,如果不是,那就只好宣布实验结果事与愿违了。