数据框的小常识
a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))
- rep,重复,括号中填要重复的字符和重复次数。
- aste,连接两个字符串,括号要填两个代连接字符并指定分隔符(sep),没有分隔符就填sep=“”。
- 1:3表示从1到三。如需一列中需要填入三个无规律的数字,可以用向量c(1,3,4),同样如果填的是字符串也需要加双引号,例如c("doudou","huahua","xiaoyu")。
- 函数后面一般都要加括号,括号里第一个参数是都数据框名
- 字符串要加双引号(行名和列名也是字符串,但是可以不用加),其他单元格(姑且这么叫了)里出现的字符串要加。
- 行 raw,列 column,简化写法为col
Tidy Data
gather函数
ather(a,X1999,X2000,key = "year",value = "cases")
gather(a,"year","cases",X1999,X2000) #推荐的偷懒做法
处理缺失值
导入:X<-read.csv('doudou.csv')
导出:write.csv(X,'doudou.csv')
drop_na():有空值的,整行删除掉
drop_na(X,X2)
fill(),根据上一行的数值填充上
fill(X,X2)
replace_na(),空值填进去特定的一个数值(还是在应付)
括号里填数据框名,要填的列名=要填的值
replace_na(X,list(X2=2))
一列分两列
separate:按列分割
separate_rows:按行分割