R语言学习-基本统计分析--下

独立性检验

卡方独立性检验

使用chisq.test()函数对二维表的行变量和列变量进行卡方独立性检验,代码如下

> mytable<-xtabs(~Treatment+Improved,data = Arthritis)
> mytable
         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21
> chisq.test(mytable)

    Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463

> mytable<-xtabs(~Improved+Sex,data = Arthritis)
> mytable
        Sex
Improved Female Male
  None       25   17
  Some       12    2
  Marked     22    6
> chisq.test(mytable)

    Pearson's Chi-squared test

data:  mytable
X-squared = 4.8407, df = 2, p-value = 0.08889

Warning message:
In chisq.test(mytable) : Chi-squared近似算法有可能不准

其中的P值表示从总体中抽取的样本行变量与列变量是相互独立的概率
在第一个二维表(治疗与改善程度)中p<0.01,说明两者不独立,即存在着某种关系,在第二个二维表(改善程度与性别)中,P>0.05,说明两者相互独立

Fisher精确检验

Fisher精确检验的原假设是:边界固定的列联表中行和列是相互独立的
其调用格式为fisher.test(mytable)

> mytable<-xtabs(~Treatment+Improved,data = Arthritis)
> mytable
         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21
> fisher.test(mytable)

    Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided

可以看出P<0.01,即治疗方法与改善程度不独立

相关性检验

相关的类型

Pearson积差相关系数衡量了两个定量变量之间的线性相关程度
Spearman等级相关系数衡量分级定序变量之间的相关程度
Kendall's Tau相关系数也是一种非参数的等级相关度量

示例的数据来源于R内置数据集state.x77数据集,它提供了美国50个州在1997年的人口,收入,文盲率,预期寿命,谋杀率和高中毕业数据

cor()函数可以计算着三种相关系数,cov()函数可以用来计算协方差,调用格式如下
cor(x,use=,method=)
x 矩阵或数据框
use 指定处理缺失值的方式 可选的方式有 all.obs(假设不存在缺失数据,遇到缺失数据报错) everything(遇到缺失数据时,相关系数的计算结果将设为missing) compelet.obs(行删除)pairwise.complete.obs(成对删除)

> state<-state.x77[,1:6]
> cor(state)
            Population     Income Illiteracy    Life Exp     Murder     HS Grad
Population  1.00000000  0.2082276  0.1076224 -0.06805195  0.3436428 -0.09848975
Income      0.20822756  1.0000000 -0.4370752  0.34025534 -0.2300776  0.61993232
Illiteracy  0.10762237 -0.4370752  1.0000000 -0.58847793  0.7029752 -0.65718861
Life Exp   -0.06805195  0.3402553 -0.5884779  1.00000000 -0.7808458  0.58221620
Murder      0.34364275 -0.2300776  0.7029752 -0.78084575  1.0000000 -0.48797102
HS Grad    -0.09848975  0.6199323 -0.6571886  0.58221620 -0.4879710  1.00000000
> cov(state)
              Population      Income   Illiteracy     Life Exp      Murder      HS Grad
Population 19931683.7588 571229.7796  292.8679592 -407.8424612 5663.523714 -3551.509551
Income       571229.7796 377573.3061 -163.7020408  280.6631837 -521.894286  3076.768980
Illiteracy      292.8680   -163.7020    0.3715306   -0.4815122    1.581776    -3.235469
Life Exp       -407.8425    280.6632   -0.4815122    1.8020204   -3.869480     6.312685
Murder         5663.5237   -521.8943    1.5817755   -3.8694804   13.627465   -14.549616
HS Grad       -3551.5096   3076.7690   -3.2354694    6.3126849  -14.549616    65.237894
> cor(state,method = "spearman")
           Population     Income Illiteracy   Life Exp     Murder    HS Grad
Population  1.0000000  0.1246098  0.3130496 -0.1040171  0.3457401 -0.3833649
Income      0.1246098  1.0000000 -0.3145948  0.3241050 -0.2174623  0.5104809
Illiteracy  0.3130496 -0.3145948  1.0000000 -0.5553735  0.6723592 -0.6545396
Life Exp   -0.1040171  0.3241050 -0.5553735  1.0000000 -0.7802406  0.5239410
Murder      0.3457401 -0.2174623  0.6723592 -0.7802406  1.0000000 -0.4367330
HS Grad    -0.3833649  0.5104809 -0.6545396  0.5239410 -0.4367330  1.0000000

第一个语句计算了相关系数,第二个语句计算了Perason相关系数,第三个语句计算了Spearman相关系数,可以看到收入和高中毕业率存在很强的正相关,文盲率和预期寿命存在很强的负相关

相关性的显著检验(检验总体相关度是否为0)

在计算好相关系数后,就要对它们进行显著性检验
可以使用cor.test()函数进行检验,简化后的调用格式如下
cor.test(x,y,alternative=,method=)
x,y是要进行检验的相关性变量
alternative 用来指定进行单侧检验还是双侧检验
method 指定要计算的相关类型

> cor.test(state[,4],state[,5])

    Pearson's product-moment correlation

data:  state[, 4] and state[, 5]
t = -8.6596, df = 48, p-value = 2.26e-11
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.8700837 -0.6420442
sample estimates:
       cor 
-0.7808458 

这段代码对预期寿命和谋杀率的相关性进行检验,P值代表相关度为0的概率,其中P值很小,说明原假设几乎不可能发生,从而推翻原假设认为预期寿命和谋杀率的相关度不为0

t检验(检验总体均值是否相等)

上述的相关系数的检验主要是应用于类别型变量的检验
而t检验则主要应用于连续型变量的检验
示例用的数据集是MASS包中的UScrime数据集,它包含了1960年美国47个州的刑罚制度对犯罪影响的信息
我们感兴趣的变量为Prob(监禁的概率),U1(14-24岁年龄段男性失业率),U2(35-39岁年龄段男性失业率)。类别型变量So(指示该州是否位于南方)

独立样本的t检验

我们比较的对象是南方和非南方各州,应变量为监禁的概率,一个针对两组的独立样本y检验可以用于检验两个总体的均值是否相等
调用格式为
t.test(y~x,data)
y是一个数值型变量,x是类别型变量,data是数据框

> t.test(Prob~So,data = UScrime)

    Welch Two Sample t-test

data:  Prob by So
t = -3.8954, df = 24.925, p-value = 0.0006506
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.03852569 -0.01187439
sample estimates:
mean in group 0 mean in group 1 
     0.03851265      0.06371269 

由于P<0.01,可以拒绝南方各州与非南方各州具有相同监禁率的假设

非独立样本的t检验

较年轻男性的失业率是否比年长的男性失业率高?在这种情况下,两中数据并不独立(比如同一个州),非独立样本的t检验调用格式如下
t.test(y1,y2,paired=TRUE)
y1,y2是两个非独立的数值向量

> t.test(UScrime$U1,UScrime$U2,paired = TRUE)

    Paired t-test

data:  UScrime$U1 and UScrime$U2
t = 32.407, df = 46, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 57.67003 65.30870
sample estimates:
mean of the differences 
               61.48936 

可以看出年轻的失业率交年长的失业率高(均值差值为61.5),切P<0.01,可以保证两者失业率不同

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容