思维导图
part1:学会获取一个R包的小抄
方法1:去百度/谷歌XX小抄
方法2:找Rstudio的cheatsheet网站(网速好慢的)
https://www.rstudio.com/resources/cheatsheets/
方法3.我们教程里用到的包都可以到生信星球公众号回复相应的包名来获取,
part2:初步了解tidyr
它的功能主要有:
(1)数据框的变形
(2)处理数据框中的空值
(3)根据一个表格衍生出其他表格
(4)实现行或列的分割和合并
part3:学习极简安装R包
1.控制台输入:library(tidyr)
2.下载和安装tydir:install.packages("tidyr")
准备工作part2:数据框的小常识
a<-data.frame(GeneId = rep("gene5",times=3),SampleName =paste("Sample",1:3,sep=""),Expression=c(14,19,18))
1.新建数据框(这里直接把新建的数据框赋值给了a)
rep,重复,括号中填要重复的字符和重复次数。
paste,连接两个字符串,括号要填两个代连接字符并指定分隔符(sep),没有分隔符就填sep=“”。
1:3表示从1到三。如需一列中需要填入三个无规律的数字,可以用向量c(1,3,4),同样如果填的是字符串也需要加双引号,例如c("doudou","huahua","xiaoyu")。
2.了解概念:key-value--“键值对” ,表示一种对应关系。“键”和“值”都是列名,如SampleName和Expression的对应。
3.函数后面一般都要加括号,括号里第一个参数是都数据框名
4.字符串要加双引号(行名和列名也是字符串,但是可以不用加),其他单元格(姑且这么叫了)里出现的字符串要加。
行 raw
列 column,简化写法为col
3.实现了数据框的变形
用来跨包处理
1.Reshape Data
2.Handle Missing Values
(1).删除整行
(2).根据上下文(瞎)蒙一个
(3).同一列的空值填上同一个数。
在这里补充下csv的导入和导出方式。(默认参数好,学R没烦恼)
导入:X<-read.csv('doudou.csv')
导出:write.csv(X,'doudou.csv')
drop_na():有空值的,整行删除掉
括号里填数据框名,依据的列名(有空值那一列的列名)
fill(),根据上一行的数值填充上(好应付的感觉)
replace_na(),空值填进去特定的一个数值(还是在应付)
括号里填数据框名,要填的列名=要填的值
3. Expand Tables
complete(把空值的位置补全)
expand
列出每列值所有可能的组合
4.split cells(选修)
separate:按列分割
separate_rows:按行分割
unite:分割完了再合并回去