统计学基础与R-比例分析

写在前面

入门生物信息或者进行生物相关研究，所有人都绕不开统计的基础知识和计算实现方式。在担任中科院生物统计学课程助教的过程中，我发现大部分同学的首要困惑在于理不清相关概念，其次才是不知道该如何用R语言来进行最基本的计算。本合集共分为8小节，将简要介绍生物统计学相关基础知识以及如何使用R语言进行最基本的计算和分析。

需要说明的是，文中个别描述严格来讲并不准确但希望有助于理解，涉及到R语言的部分则展示了若干函数最基本用法，希望不给阅读和学习增加负担。另外，这份资料主要面向生物统计学和R语言基础薄弱的人群，勉强可以称之为极简手册，详细的学习还需要阅读相关教材资料。

在之前几节内容中提到了均值分析和比较，但有时候我们关心的并不是均值而是比例(proportion)。

单比例检验

对于n比较大（通常为 $np \geq5$ 同时 $nq \geq5$ ）的样本来说，根据中心极限定理，样本近似于正态分布，可以使用z检验，其检验统计量计算公式为：

$z = \frac{p_o-p_e}{\sqrt{p_oq/n}}$

其中， $p_o$ 表示观测到的比例， $p_e$ 为预期比例，n表示样本量， $q=1-p$ 。

如果样本比较小，则使用二项分布进行统计。

在R中，对于小样本，采用binom.test()，对于大样本使用正态分布近似二项分布，利用prop.test()进行分析。
在单样本比例检验中，我们关心的是具有同种特性的两个群体，在该特性总体中所占有的比例情况。例如，小鼠中公鼠母鼠各有一半，有100只患有某种疾病，其中有公鼠60只，母鼠40只。想知道是否公鼠患病率比母鼠高。在该问题中成功次数为公鼠患病数55，总次数为100，预期比例为50%(公母鼠数量相等)。

prop.test(60, 100, p = 0.5, alternative = "greater")

#   1-sample proportions test with continuity
# correction
#
# data:  60 out of 100, null probability 0.5
# X-squared = 3.61, df = 1, p-value = 0.02872
# alternative hypothesis: true p is greater than 0.5
# 95 percent confidence interval:
#  0.5127842 1.0000000
# sample estimates:
#   p
# 0.6

其中，x为成功的次数，n为总测试，p为要测试的概率大小。在结果中，显示了卡方检验的统计量值，自由度和p值和置信区间，最后给出了样本概率估计值。

双比例检验

如果我们已知两组具有不同特性（A和B）样本的样本量和这两组样本中具有某种共同特性（C）的个体数量（也就是知道了C特性各自群体比例和总体比例），想要计算具有C特性的个体在A特性群体和B特性群体中的比例是否一样，就需要用到双比例检验。

当样本数量较小时（所有np和nq都小于5），通常采用非参数检验Fisher Exact probability test 进行分析。当样本力量较大时，我们还是近似使用正态分布z检验来进行预测。

例如，男生500人，女生500人，其中喜欢阅读的男生有400人，喜欢阅读的女生有460人。男生喜欢阅读的比例是否比女生高。我们假设男生喜欢阅读的比例比女生高，则备择假设是男生喜欢阅读的比例比女生低。

 prop.test(x = c(400, 460), n = c(500, 500), alternative = "less")

#   2-sample test for equality of proportions with
# continuity correction
#
# data:  c(400, 460) out of c(500, 500)
# X-squared = 28.912, df = 1, p-value = 3.787e-08
# alternative hypothesis: less
# 95 percent confidence interval:
#  -1.0000000 -0.0824468
# sample estimates:
# prop 1 prop 2
#   0.80   0.92

由结果可知，p<0.05，拒绝原假设，即男生喜欢阅读的比例比女生低。

卡方分布

$\chi^2$ 分布可以通过原假设，得到一个统计量来表示期望结果和实际结果之间的偏离程度，进而根据分布，自由度和假设成立的情况，得出观察频率极值的发生概率（比当前统计结果更加极端的概率）。计算方法是对概率分布中的每一个频率，用期望频数和实际频数差的平方除以期望频数，最后把所有结果相加。得到的统计量结果越大，说明差别越显著，数值越小说明观察和期望的差别越小，当观察频数和期望频数一致是卡方为0。其实就是在比较观测到的比例和期望的比例的关系。

$\chi^2=\sum \frac{(O-E)^2}{E}$

卡方分布就可以用来检验某个分类变量各类的出现概率是否等于指定概率，可以检验数据的拟合优度（指定的一组数据与指定分布的吻合度），也可以用来检验两个变量的独立性（两个变量之间是否存在某种关联）。

在使用卡方检验时，需要的一个参数被称为自由度，指的是独立变量的个数（组数减去限制数）。通常，二项分布已知p，泊松分布已知 $\lambda$ ，正态分布已知 $\mu$ 和 $\sigma^2$ 时的自由度是n-1。进行独立性检验时，h行kl列联列表的自由度是 $(h-1)\times(k-1)$ 。

系列文章目录

加入靠谱熊基地，和大家一起交流

添加我的微信

最后编辑于：2019.08.25 09:24:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

统计学基础与R-比例分析

写在前面

单比例检验

双比例检验

卡方分布

推荐阅读更多精彩内容