1,名词解释(是什么的问题)
- org.Hs.eg.db,一个注释包,28个主流数据库的ID任意切换,技能树的链接讲的很清楚
- hgu133a.db ,一个平台的注释包,平台与注释包之间的关系
-
hgu95av2.db
2,技能总结 (怎么做的问题)
- 复制一个 .Rproj 非常好用,这样可以进行所有数据的链接和存储;(解决了我之前一直累计乱存放的问题)
- 在R 里边可以直接新建 .txt 文件,file→newfile→txt
- 关于 字符串的处理,strsplit() ,substring(), 有了比较好的理解;因为是对字符串处理的 函数,所以注意输入的 class;
尝试运行: - lapply 默认输出是 list 级别的变量;
- 做出的结果 可以在 genecard 上边进行验证,看有没有错误;
- a$ensembl_id 可以表的最后一行 加入 一列;
- toTable, 转换成 表格形式,这样子方便下一个 merge()
- suppressPackageStartupMessages,让一些安装软件的提示,不再显示,还有其他安装包的相关命令。
-
ExpressionSet,技能树的总结 ,把ExpressionSet 丢到Google里,第一个中文的解释就是技能树的,这棵树 简直太强大了。简单理解就是 结合了 表达矩阵和分组信息的 超级包;
- 一个基因有三个因子,可以选择差异最明显的基因;
- [图片上传中...(image.png-33995-1544743899438-0)]
-
read.table 可以把下边图一的格式,读成图二
3,常用命令复习:
colnames(a)='probe_id'
# 设置镜像
options(BioC_mirror="https://mirrors.ustc.edu.cn/bioc/")
# 这个应该也是设置镜像的
options("repos" = c(CRAN="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")) BiocManager::install("hgu133a.db",ask = F,update = F) # 安装
## 注意比较 merge 和match 的用法区别,输入的是表格还是 向量
tmp1=merge(ids,a,by='probe_id')
tmp2=ids[match(a$probe_id,ids$probe_id),]
# 这样的数据类型都可以这样子取,取出SYMBOL 和芯片探针的ID;
ids=toTable(hgu95av2SYMBOL)
# 可以调出分组信息; ~ 后边应该默认会做成因子;
boxplot(exprSet['1974_s_at',] ~ pd$Disease)
4,后期需要整理的资料:
- match merge, %in%
- 想如何通过 ggpubr 进行美化
从上面可以看到%in%这个操作符只返回逻辑向量TRUE 或者FALSE,而且返回值应该与%in%这个操作符前面的向量程度相等。也就是说它相当于遍历了C里面的一个个元素,判断它们是否在B中出现过,然后返回是或者否即可。
而match(C,B)的结果就很不一样了,它的返回结果同样与前面的向量等长,但是它并非返回逻辑向量,而是遍历了C里面的一个个元素,判断它们是否在B中出现过,如果出现就返回在B中的索引号,如果没有出现,就返回NA。
5,存在的问题
1,
2,忘记如何 找到BRCA1基因在TCGA数据库的乳腺癌数据集(Breast Invasive Carcinoma (TCGA, PanCancer Atlas))的表达情况
提示:使用http://www.cbioportal.org/index.do 定位数据集:http://www.cbioportal.org/datasets
3, 如何找到,找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存
4, 好多次使用R进行安装的时候出现下边的问题的时候该怎么处理;
好多报错都跟数据格式有关系;先检查!