R语言实战-基本方法

一.基本图形

1.条形图
1.1 简单条形图使用barplot(height,....),其中height 是向量或者矩阵，默认垂直条形图，horiz = TRUE（水平条形图），可以使用par() 函数对R的默认图形做出大量修改

barplot(height, width = 1, space = NULL,
        names.arg = NULL, legend.text = NULL, beside = FALSE,
        horiz = FALSE, density = NULL, angle = 45,
        col = NULL, border = par("fg"),
        main = NULL, sub = NULL, xlab = NULL, ylab = NULL,
        xlim = NULL, ylim = NULL,...)

1.2堆砌条形图和分组条形图
height 是矩阵时，barplot 绘制的是堆砌或者分组条形图，beside = FASLE是默认值，每一列生成一个条形，每个值是堆砌的“子条”高度。设置beside = TRUE,那么每一列的各个值相互并排形成一组
1.3棘状图
棘状图对堆砌图进行了重缩放，每个图形的高度都为1，每一段的高度表示这个值在这一列的比例，可以使用vcd包中的spine()绘制

> install.packages("vcd")
> library(vcd)
载入需要的程辑包：grid
> attach(Arthritis)
> counts <- table(Treatment,Improved)
> counts
         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21
> spine(counts,main ="Spinogram Example")
> detach(Arthritis)

2.饼图
使用相对较少，人们对长度的判读比面积更加精确，可以使用 pie(x,labels)创建
使用plotrix包中的pie3D()可以创建3维饼图

install.packages("plotrix")
> library(plotrix)
> data <- c(1,2,3,4)
> tag <- c("a","b","c","d")
> pie3D(data,labels = tag,explode = 0.1,main="3d chart")

3.核密度图和箱线图
一种用于观察连续型变量分布的有效方法，使用plot(x) ,使用lines()函数可以在已存在的图形中叠加一条曲线
使用sm包中的sm.density.compare()函数可以向图形叠加两组或者更多的核密度图，但用于可视化分布和组间差异的更好图例是还是箱线图
箱线图:通过绘制连续变量的五数总括（最大值、上四分位数（第75%位数）、中位数（第50%位数）、下四分位数（第25%分位数）、最小值），箱线图可以直观的看出离群点（范围+-（1.5）* IQR(上四分位减下四分位)）
使用 boxplot(formula,data=dataframe)
其中,formula是一个公式，一个示例：y~ A,这将为类别型变量A的每个值并列地生成数值型变量y的箱线图，公式 y~ A*B 表示将类别型变量A和B所有水平的两两组合生成数值型变量y的箱线图，dataframe 是数据集
下面来以mtcars数据集为例

mtcars

如果想要直观的显示出自动挡和手动挡在分别在4、6、8缸发动机的耗油量数据，如何用箱线图表示？

#创建汽车缸数因子
> mtcars$cyl.f <- factor(mtcars$cyl,levels = c(4,6,8),labels = c("4","6","8"))
#创建变速箱类型因子
> mtcars$am.f <- factor(mtcars$am,levels = c(0,1),labels = c("auto","standard"))
#绘图
> boxplot(mpg ~am.f*cyl.f,data = mtcars,varwidth= TRUE,col=c("gold","darkgreen"),main="MPG distribution by auto type",xlab="auto type",ylab="Miles per gallon")

效果如下

不同变速箱类型和汽车缸数对油耗的影响

4.点图
使用dotchart(x,labels=)
x 是一个数值向量，labels 是每个点的标签组成的向量

二.基本统计分析
R语言有许多用于描述生成基本描述性和推断统计量
2.1.描述性统计量
2.1.1 summary()
summary()函数提供了最小值、四分位数和均值

> testCars <- c("mpg","wt","hp")
> summary(mtcars[testCars])
      mpg              wt              hp       
 Min.   :10.40   Min.   :1.513   Min.   : 52.0  
 1st Qu.:15.43   1st Qu.:2.581   1st Qu.: 96.5  
 Median :19.20   Median :3.325   Median :123.0  
 Mean   :20.09   Mean   :3.217   Mean   :146.7  
 3rd Qu.:22.80   3rd Qu.:3.610   3rd Qu.:180.0  
 Max.   :33.90   Max.   :5.424   Max.   :335.0

2.1.2 sapply()
sapply(x,FUN,options) 可以用于计算所选择的任意描述性统计量，x:数据框(矩阵)，FUN为任意函数，指定options,它们将传递给FUN,这里的FUN 函数可以是 mean()，sd()，var()，min()，max()，median()等等
可以使用sapply函数生成基础安装不带的描述性变量 eg skew :偏度 kurtosis ：峰度

myfuction <- function(x,na.omit = FALSE){
  if(na.omit)
    x <- x[!is.na(x)]
    m <- mean(x)
    n <- length(x)
    s <- sd(x)
    skew <- sum((x-m)^3/s^3)/n
    kurt <- sum((x-m)^4/s^4)/n -3
    return( c(n=n,mean= m,stdev = s,skew = skew,kurtosis = kurt))
}
myvars <- c("mpg","hp","wt")

sapply(mtcars[myvars],myfuction)

2.1.3 许多开源包中也提供了很多计算描述性统计量的函数
2.1.3.1 Hmisc 包中的describe() :
函数可返回平均值、分位数、及5个最大最小值
2.1.3.2 pastecs包中的 stat.desc() ：
提供了种类繁多的描述性统计量，使用格式为：stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)

install.packages("pastecs")

> library(pastecs)
> mydata <- c("mpg","hp","wt")
> stat.desc(mtcars[mydata])
                     mpg           hp          wt
nbr.val       32.0000000   32.0000000  32.0000000
nbr.null       0.0000000    0.0000000   0.0000000
nbr.na         0.0000000    0.0000000   0.0000000
min           10.4000000   52.0000000   1.5130000
max           33.9000000  335.0000000   5.4240000
range         23.5000000  283.0000000   3.9110000
sum          642.9000000 4694.0000000 102.9520000
median        19.2000000  123.0000000   3.3250000
mean          20.0906250  146.6875000   3.2172500
SE.mean        1.0654240   12.1203173   0.1729685
CI.mean.0.95   2.1729465   24.7195501   0.3527715
var           36.3241028 4700.8669355   0.9573790
std.dev        6.0269481   68.5628685   0.9784574
coef.var       0.2999881    0.4674077   0.3041285

2.1.4 分组计算描述性统计量
使用psych包中的describeBy()

install.packages("psych")
library(psych)
myvars <- c("mpg","hp","wt")
describeBy(mtcars[myvars],list(am=mtcars$am))

2.2 类别型变量的独立性检验
R中提供了许多独立性检测的方法，这里介绍三种： 1. 卡方独立性检验，2Fisher精确检验 , 3. Cochran-Mantel-haenszel 检验
首先将数据集生成频数表，训练数据集来自vcd 包中的Arthritis 数据集

library(vcd)
head(Arthritis)
  ID Treatment  Sex Age Improved
1 57   Treated Male  27     Some
2 46   Treated Male  29     None
3 77   Treated Male  30     None
4 17   Treated Male  32   Marked
5 36   Treated Male  46   Marked
6 23   Treated Male  58   Marked

使用table(A,B)生成二维列联表，A是行变量,B是列变量，或者使用xtabs()函数生成eg：

#mytable <- xtabs(~Treatment+Improved,data=Arthritis)
mytable <- xtabs(~ Arthritis$Treatment+Arthritis$Improved,data=Arthritis)
> mytable
                   Arthritis$Improved
Arthritis$Treatment None Some Marked
            Placebo   29    7      7
            Treated   13    7     21

如果要生成三维列联表
调用 mytable <- xtabs (~ A+B+C，data = mydata)
2.2.1.卡方独立性检测

chisq.test(mytable)

    Pearson's Chi-squared test

data:  mytable
X-squared = 13.055, df = 2, p-value = 0.001463
 mytable <- xtabs(~ Arthritis$Treatment+Arthritis$Sex,data=Arthritis)
> chisq.test(mytable)

    Pearson's Chi-squared test with Yates' continuity correction

data:  mytable
X-squared = 0.38378, df = 1, p-value = 0.5356

结果1中p-value=0.001463 <0.01 说明接收治疗和改善水平中存在某种关系，而患者接收治疗和性别中p-value = 0.5356 >0.05 说明他们没有关联性

2.2.2 Fisher精确检验

mytable <- xtabs(~ Arthritis$Treatment+Arthritis$Improved,data=Arthritis)
> fisher.test(mytable)

    Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001393
alternative hypothesis: two.sided

注意：fisher.test()可以在任一行列数大于等于2的二维列联表上使用，但不能用用2x2的列联表
2.2.3 Cochran-Mantel-Haenszel 检验
注意，此条件检测两名义变量在第三变量的每一层都是条件独立的，不存在三阶交互作用

threetable <-xtabs(~ Arthritis$Treatment +Arthritis$Improved+Arthritis$Sex,data = Arthritis)
> mantelhaen.test(threetable)

    Cochran-Mantel-Haenszel test

data:  threetable
Cochran-Mantel-Haenszel M^2 = 14.632, df = 2, p-value = 0.0006647

2.3 相关性检验
1.相关性的显著性检验
2.3.1使用col.test(x,y,alternative,method=)
x,y 为需要检验相关性的变量，alternative表示指定双侧检验还是单侧检验，col.test ()每次只能检验一种相关关系，使用psych包中的corr.test ()可以一次检测多个变量间的相关性
2.3.2 t检验
独立的检验
使用t.test(y~x,data) ,y是一个数值型变量，x 是一个二分量(只有两个取值)

#数据集是MASS包中的UScrime(刑法制度对犯罪率的影响)，几个重要参数
#Prob:监禁的概率  ；
#So :是否位于南方
#U1 :(14-25岁年龄段城市男性失业率)
#U2:(35~39岁年龄段城市男性失业率)
library(MASS)
t.test(UScrime$Prob~UScrime$So,data=UScrime)

    Welch Two Sample t-test

data:  UScrime$Prob by UScrime$So
t = -3.8954, df = 24.925, p-value = 0.0006506
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.03852569 -0.01187439
sample estimates:
mean in group 0 mean in group 1 
     0.03851265      0.06371269

非独立样本的t检验
判断较年轻男性U1是否比较年长男性U2更高

sapply(UScrime[c("U1","U2")],function(x)(c(mean=mean(x),sd=sd(x))))
           U1       U2
mean 95.46809 33.97872
sd   18.02878  8.44545
> with(UScrime,t.test(U1,U2,paired = TRUE))

    Paired t-test

data:  U1 and U2
t = 32.407, df = 46, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 57.67003 65.30870
sample estimates:
mean of the differences 
               61.48936

我们可以发现，两个变量的均值的差异为61.5 足够大，可以保证拒绝年长和年轻男性的平均失业率相同的假设，年轻男性的失业率更高，要获得两个变量总体均值相同的概率微乎其微，概率为2.2e-16

最后编辑于：2017.12.06 19:03:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,311评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,339评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,671评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,252评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,253评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,031评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,340评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,973评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,466评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,937评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,039评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,701评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,254评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,259评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,497评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,786评论 2赞 345

R语言实战-基本方法

推荐阅读更多精彩内容