统计学思考导论读书笔记-样本比较（一）

10.两个样本的比较

1.样本的比较

现在，我们讲讲推断统计中两个变量之间的关系问题。

之前的章节中，我们都是采用单个方法进行函数分布问题的求解。然而，在实际的统计问题中，我们往往需要多种测量方法来了解两个变量之间的关系，尤其是一个变量的结果是否影响到另一个变量的结果，即两个变量之间是否存在某种联系，而其中，有一种关系我们非常熟悉，那就是某个变量是另一个变量的函数，即y=f(x)的形式，这样通过函数，我们就能直观的看到两个变量间的相互联系，即哪个变量是自变量，哪个变量是因变量。不过，大部分的两变量之间的关系其实是相当复杂的，不是三言两语就能说清的，这时需要我们具体情况具体分析了。当然，在第二个变量中，某一个具体的值都会有与之对应的第一个变量的分布，而不同的值所对应的分布往往是不一样的。所以，在统计分析方法中，我们都会把这种类型的第二个变量称之为探索变量，而它所对应的分布则称之为response（当然，你可以把response理解成答案分布，或者是这个变量的应答及其相关分布），而这样的探索变量在临床医学中有着广泛的运用。好了，下面我们就直入正题讲讲样本是怎样比较的。

2.样本均值比较

现在我们先看一个例子。首先，我们还是使用cars这个数据集，还是先对汽车的耗油量之差进行分析。在之前的讲解中，我已经求出了汽车重量的平均值，为2414lb。所以，我们对汽车重量是否达到2414lb进行分组，而且这一次是检验自变量为重量，因变量为耗油量之差的探索性分析，所以我们要先对汽车重量进行转换成因子格式的操作，具体如下：

heavy<-factor(cars$curb.weight>2414)

plot(dif.mpg~heavy)

我们看到了把重量是否大于2414lb的汽车进行分组以后用箱图展示出来的结果。接下来，我们用t检验对这两个变量进行检验：

t.test(dif.mpg~heavy)

通过t检验，我们得到了汽车重量较轻的一组的平均值为5.805825，而重量较大的则是5.254902。再看看t，算出来的结果是2.4255，而p则为0.01621<0.05，说明了它处在拒绝域之中，我们可以拒绝原假设，也就是说，这两个变量的期望并不相同。

这里，我们要注意一下第一行写的Welch Two Sample t-test这段文字，这里是说这次t检验采用了Welch检验方法，对汽车耗油量之差和汽车重量进行变量探索性分析，主要是比较这两个变量的两个样本的期望是否一样。通常情况下，如果两个样本的期望是一样的，那么最后一行所显示的数值理应也是一样的，或者是它们之差小的可以让这个p大于0.05跳出拒绝域，显然，这一次的检验t值落在了拒绝域范围之内，所以，这两个样本的期望存在一定差别。

再说一下两样本期望之差，其差为5.805825-5.254902=0.550923，而计算出来的差值95%置信区间则为[0.1029150,0.9989315]。

3.样本的置信区间之差比较

上一节的最后我们稍微提了一下两样本之差的问题，而且只是笼统的说了一下它们俩之差的95%置信区间，那么，可能有人回问，我为什么会在讲两样本期望比较的时候会最后用两行字提了一下期望之差的置信区间？看到这一节的标题以后，会不会觉得有点像是我们写作文里一种叫做承上启下的写作手法，当然，这里用的实在有点不好，不过没关系，反正又不是语文课，只要知道就好了。

那么，既然在文章的最后引出了样本期望之差的置信区间，我们又为什么要学习两样本置信区间之差的比较呢？

先前，我们都只是用单个方法求出单个变量的单个样本的置信区间，然而实际上，我们大多数情况下是要在一个分布函数中去多个样本（多个变量）进行研究的，因此，我们需要掌握多样本的分析，而本节内容主要集中在两样本（研究两个变量）的区间问题上进行探讨。

假设一个随机样本分布X，E（X）和D（X）分别表示了这个样本的期望和方差。好了，又回到先前的例子，我们又对已经分好组的汽车重量进行探讨，还是之前的分组那样，重量大于2414lb的为一组，其余的为一组，并分别用符号Xa和Xb表示。现在，我们用E(Xa)-E(Xb)表示两样本期望之差，它将用于比较两区间之差的比较中，而X-则表示汽车重量的总平均值，同时，而且，我们会根据

这个公式进行区间估计。在R里，qnorm(0.975)相信对大家来说已经很熟悉了吧，算出来的结果为1.96；再看看上面讲到的区间估计的公式，其实可以简化为下面这个公式：

其中S为样本的标准差。

现在我们再来看一下下面的这个公式：

首先，我们都知道两样本的均值及其期望之差为

，又根据中心极限定理又可以推出标准化正态分布的标准差，就是结合上面两个公式得：

从这里，我们大致可以得知。

实际情况下，如果是要计算正则化正态分布的标准差，这两个样本其实一开始我们是不知道的。不过，我们还可以从这两个样本中分别取出一个子样本，分别以Sa，Sb来表示，由此，我们又能得知Var(Sa)=S2a，Var(Sb)=Sb2，从而推导出Var(Sa)/na+Var(Sb)/nb=Sa2/na+Sb2/nb，又由上文提到的公式又能推导出事件{-1.96<=Z<=1.96}也可以在这个条件下表示成下面的形式：

最后，我们又根据以上所列举的公式推导出两样本的期望之差为：

又回到耗油量之差这个例子，我们现在就根据上面的方法进行模拟：

我们首先还是分别把它们的平均值和方差算出来，计算完均值后可得，而标准差之差为

因此，我们现在所得出的两样本期望之差的95%置信区间为。

转载于:http://shujuren.org/article/97.html

最后编辑于：2017.12.04 02:50:34

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

统计学思考导论读书笔记-样本比较（一）

推荐阅读更多精彩内容