用DESeq2包来对RNA-seq数据进行差异分析

差异分析的套路都是差不多的，大部分设计思想都是继承limma这个包，DESeq2也不例外。

DESeq2是DESeq包的更新版本，看样子应该不会有DESeq3了，哈哈，它的设计思想就是针对count类型的数据。

可以是任意features的count数据，比如对各个基因的count，或者外显子，或者CHIP-seq的一些feature，都可以用来做差异分析。

使用这个包也是需要三个数据：

表达矩阵
分组矩阵
差异比较矩阵

总结起来三个步骤，我下面会一一讲解

重点就是构造一个dds的对象，
然后直接用DESeq函数进行normalization处理即可，
处理之后用results函数来提取差异比较结果。

读取自己的数据

一般我们会自己读取表达矩阵和分组信息，下面是一个例子：

1.  options(warn=-1)
2.  suppressMessages(library(DESeq2))
3.  suppressMessages(library(limma))
4.  suppressMessages(library(pasilla))
5.  data(pasillaGenes)
6.  exprSet=counts(pasillaGenes)
7.  head(exprSet)  ##表达矩阵如下
8.  ##             treated1fb treated2fb treated3fb untreated1fb untreated2fb
9.  ## FBgn0000003          0          0          1            0            0
10.  ## FBgn0000008         78         46         43           47           89
11.  ## FBgn0000014          2          0          0            0            0
12.  ## FBgn0000015          1          0          1            0            1
13.  ## FBgn0000017       3187       1672       1859         2445         4615
14.  ## FBgn0000018        369        150        176          288          383
15.  ##             untreated3fb untreated4fb
16.  ## FBgn0000003            0            0
17.  ## FBgn0000008           53           27
18.  ## FBgn0000014            1            0
19.  ## FBgn0000015            1            2
20.  ## FBgn0000017         2063         1711
21.  ## FBgn0000018          135          174
22.  (group_list=pasillaGenes$condition)
23.  ## [1] treated   treated   treated   untreated untreated untreated untreated
24.  ## Levels: treated untreated
25.  ##这是分组信息，7个样本，3个处理的，4个未处理的对照！

第一步：构建dds对象

那么根据这两个数据就可以构造dds的对象了

1.  colData <- data.frame(row.names=colnames(exprSet),  
2.  group_list=group_list
3.  )
4.  ## 这是一个复杂的方法构造这个对象！
5.  dds <-  DESeqDataSetFromMatrix(countData = exprSet,
6.  colData = colData,
7.  design =  ~ group_list)

9.  ## design 其实也是一个对象，还可以通过design(dds)来继续修改分组信息，但是一般没有必要。
10.  dds
11.  ## class: DESeqDataSet 
12.  ## dim: 14470 7 
13.  ## exptData(0):
14.  ## assays(1): counts
15.  ## rownames(14470): FBgn0000003 FBgn0000008 ... FBgn0261574
16.  ##   FBgn0261575
17.  ## rowData metadata column names(0):
18.  ## colnames(7): treated1fb treated2fb ... untreated3fb untreated4fb
19.  ## colData names(1): group_list

可以看到我们构造的dds对象有7个样本，共14470features

从基因名可以看出，是果蝇的测序数据

我们也可以直接从expressionSet这个对象构建dds对象！

1.  library(airway)
2.  data(airway)
3.  suppressMessages(library(DESeq2))
4.  dds <-  DESeqDataSet(airway, design =  ~ cell+ dex)
5.  design(dds)  <-  ~ dex 
6.  ## 构造好的对象还可以更改分组信息

第二步：做normalization

1.  suppressMessages(dds2 <-  DESeq(dds))  
2.  ##直接用DESeq函数即可
3.  ## 下面的代码如果你不感兴趣不需要运行，免得误导你
4.  ## 就是看看normalization前面的数据分布差异
5.  rld <- rlogTransformation(dds2)  ## 得到经过DESeq2软件normlization的表达矩阵！
6.  exprSet_new=assay(rld)
7.  par(cex =  0.7)
8.  n.sample=ncol(exprSet)
9.  if(n.sample>40) par(cex =  0.5)
10.  cols <- rainbow(n.sample*1.2)
11.  par(mfrow=c(2,2))
12.  boxplot(exprSet, col = cols,main="expression value",las=2)
13.  boxplot(exprSet_new, col = cols,main="expression value",las=2)
14.  hist(exprSet)
15.  hist(exprSet_new)

image.png

第三步：提取差异分析结果


1.  resultsNames(dds2)
2.  ## [1] "Intercept"           "group_listtreated"   "group_listuntreated"
3.  ## 其实如果只分成了两组，并没有必要指定这个比较矩阵！
4.  res <- results(dds2, contrast=c("group_list","treated","untreated"))  

6.  ## 提取你想要的差异分析结果，我们这里是trt组对untrt组进行比较
7.  resOrdered <- res[order(res$padj),]
8.  resOrdered=as.data.frame(resOrdered)
9.  head(resOrdered)
10.  ##              baseMean log2FoldChange     lfcSE      stat        pvalue
11.  ## FBgn0039155  453.2753      -4.281830 0.1919977 -22.30146 3.576174e-110
12.  ## FBgn0029167 2165.0445      -2.182745 0.1080670 -20.19807  1.017931e-90
13.  ## FBgn0035085  366.8279      -2.436860 0.1505280 -16.18875  6.054219e-59
14.  ## FBgn0029896  257.9027      -2.511257 0.1823764 -13.76964  3.881667e-43
15.  ## FBgn0034736  118.4074      -3.166392 0.2375506 -13.32933  1.562878e-40
16.  ## FBgn0040091  610.6035      -1.526400 0.1278555 -11.93848  7.457520e-33
17.  ##                      padj
18.  ## FBgn0039155 2.764025e-106
19.  ## FBgn0029167  3.933795e-87
20.  ## FBgn0035085  1.559769e-55
21.  ## FBgn0029896  7.500351e-40
22.  ## FBgn0034736  2.415897e-37
23.  ## FBgn0040091  9.606528e-30

差异分析结果很容易看懂啦！

原文来自：https://www.plob.org/article/9971.html

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,530评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 86,403评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,120评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,770评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,758评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,649评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,021评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,675评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,931评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,659评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,751评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,410评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,004评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,969评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,042评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,493评论 2赞 343

用DESeq2包来对RNA-seq数据进行差异分析

推荐阅读更多精彩内容