RNA-seq分析文章结果重现

文章:Temporal dynamics of gene expression and histone marks at the Arabidopsis shoot meristem during flowering.

一、查看并下载数据

tr 替换\t 为\n ; nl为对每行加行号
head -n1 E-MTAB-5130.sdrf.txt | tr '\t' '\n' | nl | grep URI
image

tail -n +2 E-MTAB-5130.sdrf.txt | cut -f 33 | xargs -i wget {}

二、fastqc和MultiQC质控

/usr/local/bin/fastqc -o ./ --nogroup /sas/supercloud-kong/wangtianpeng/data/ath_flowering/1_raw_data/ERR1698201_2.fastq.gz 

### multiqc质控
multiqc *fastqc.zip --pdf

三、Trimmo修建

  • 用Trimmomatic 从5‘端开始切除低质量碱基(LEADING:5)TRAILING:20表示切除碱基质量小于20的碱基,MINLEN:50表示过滤切除后长度小于50个碱基的reads
  • 滑动窗口:SLIDINGWINDOW:3:20表示设置窗口大小为3个碱基,从5'端开始切除reads,read的平均质量低于20,开始切除后边的碱基序列。过滤长度小于50碱基的reads,使用更大的窗口可以减轻切除的力度
for i in `seq 194 209`; do  i=ERR1698$i; nohup trimmomatic PE ../1_raw_data/$i\_1.fastq.gz ../1_raw_data/$i\_2.fastq.gz $i\_P1.fastq.gz $i\_U1.fastq.gz $i\_P2.fastq.gz $i\_U2.fastq.gz ILLUMINACLIP:/home/wangtianpeng/anaconda3/share/trimmomatic-0.36-5/adapters/TruSeq3-PE-2.fa:2:30:10 LEADING:5 TRAILING:5 SLIDINGWINDOW:4:5 MINLEN:20 \&; done

四、SALMON定量

salmon index -t athal.fa.gz -i athal_index

for i in `seq 194 209`;do nohup salmon quant -i /sas/supercloud-kong/wangtianpeng/Database/plant/a_th/ath_index -l A -1 /sas/supercloud-kong/wangtianpeng/data/ath_flowering/3_trimm/ERR1698${i}_P1.fastq.gz -2 /sas/supercloud-kong/wangtianpeng/data/ath_flowering/3_trimm/ERR1698${i}_P2.fastq.gz -p 25 -o ./ERR1698${i}_quant & done

五、tximport的输入文件:涉及R的一些基本操作

  • 将转录本水平的定量 转为 基因水平的定量:
  • 准备files

dir<- getwd()
## "E:/Bio_informatics_software/转录组/NC文章重复_A.th"

list.files()
sample <- paste0("ERR1698", c(194, seq(202,209),seq(195,201)), "_quant")
### "ERR1698194_quant" "ERR1698202_quant" "ERR1698203_quant" "ERR1698204_quant"

files <- file.path(dir,sample,"quant.sf")
names(files) <- paste0("sample",1:16)
###                                                                               sample1 
"E:/Bio_informatics_software/转录组/NC文章重复_A.th/ERR1698194_quant/quant.sf" 
        sample2 
"E:/Bio_informatics_software/转录组/NC文章重复_A.th/ERR1698202_quant/quant.sf" 
        sample3 
"E:/Bio_informatics_software/转录组/NC文章重复_A.th/ERR1698203_quant/quant.sf"


file.exists(files)
all(file.exists(files))

  • 准备基因名和转录本名字的数据框
library(AnnotationHub)
ah <- AnnotationHub()
### AnnotationHub with 40126 records
# snapshotDate(): 2017-04-25 
# $dataprovider: BroadInstitute, Ensembl
# $species:
# $rdataclass: GRanges, BigWigFile ...


ath <- query(ah, 'thaliana')
# snapshotDate(): 2017-04-25 
# $dataprovider:
# $species: 
# $rdataclass:
# additional mcols():

ath_tx <- ath[[ 'AH52247' ]]

k <- keys(ath_tx, keytype= "GENEID")
df <- select(ath_tx, keys= k, keytype= "GENEID", columns= "TXNAME")
tx2name <- df[,2:1]

  • 利用tximport转换
  • tximport(files, type = c("none", "salmon", "sailfish", "kallisto", "rsem"),
    txIn = TRUE, txOut = FALSE, countsFromAbundance = c("no", "scaledTPM",
    "lengthScaledTPM"), tx2gene = NULL, varReduce = FALSE,
    dropInfReps = FALSE, ignoreTxVersion = FALSE, geneIdCol, txIdCol,
    abundanceCol, countsCol, lengthCol, importer = NULL)
library("tximport")
library("readr")
txi <- tximport(files, type = "salmon", tx2gene = tx2gene)

# reading in files with read_tsv
# 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 
# summarizing abundance
# summarizing counts
# summarizing length


names(txi)
### txi 为一个较大的list ,查看有哪些变量。"abundance"           "counts"              "length"  "countsFromAbundance
head(txi$counts)


六、DESeq2差异表达分析

  • 回顾:对于DESeq2需要输入的三个数据:表达矩阵、样品信息数据框、差异比较矩阵

  • 而对于DESeq2的差异分析步骤,总结起来就是三步:

    • <font color=darkred>构建一个dds(DESeqDataSet)的对象</font>;
    • <font color=darkred>利用DESeq函数进行标准化处理</font>;
    • <font color=darkred>用result函数来提取差异比较的结果</font>。
  • 构建dds矩阵的基本代码

dds <- DESeqDataSetFromMatrix(countData = cts, colData = coldata, design= ~ batch + condition)
  • 其输入的三个文件:
    • 表达矩阵:即代码中的countData,就是通过之前的HTSeq-count生成的reads-count计算融合的矩阵。行为基因名,列为样品名,值为reads或fragment的整数。
    • 样品信息矩阵:即上述代码中的colData,它的类型是一个dataframe(数据框),第一列是样品名称,第二列是样品的处理情况(对照还是处理等)。可以从表达矩阵中导出或是自己单独建立。
    • 差异比较矩阵:即代码中的design,差异比较矩阵就是告诉差异分析函数哪些是对照,哪些是处理。
  • 正式构建dds的矩阵
library(DESeq2)

### DESeqDataSetFromTximport(txi, colData, design)

condition<- factor(rep(c("DAY0", "DAY1", "DAY2", "DAY3"),each=4))
sampleTable <- data.frame(row.names = colnames(txi$counts),condition)
dds <- DESeqDataSetFromTximport(txi, sampleTable, ~condition)

[sampleTable ]


image
  • 数据的预过滤:将所有样本基因表达量之和小于1的基因过滤掉

dim(dds) ### 显示32753个 16个sample
dds <- dds[rowSums(counts(dds))>1, ]
dim(dds)  ### 显示 24937个 16个sample

dds_out <- DESeq(dds)
res <- results(dds_out)
summary(res)


  • RESULTS 的参数:

    • contrast :用于指定比较的对象,DAY1,DAY0
    • lfcThreshold:用于指定log2 fold change的阈值
    • alpha : 显著性水平的阈值
    • pAdjustMethod :多重实验校正
  • 分别用 DAY1,2,3和DAY0做比较:

res0_1 <- results(dds_out, contrast = c("condition","DAY1","DAY0"))
res0_2 <- results(dds_out,contrast =c("condition","DAY2","DAY0"))
res0_3<- results(dds_out,contrast =c("condition","DAY3","DAY0"))

res0_1UP <- subset(res0_1,padj< 0.01 & log2FoldChange >0 )
res0_2UP <- subset(res0_2,padj< 0.01 & log2FoldChange >0 )
res0_3UP <- subset(res0_3,padj< 0.01 & log2FoldChange >0 )
res0_1DOWN <- subset(res0_1,padj< 0.01 & log2FoldChange <0 )
res0_2DOWN <- subset(res0_2,padj< 0.01 & log2FoldChange <0 )
res0_3DOWN <- subset(res0_3,padj< 0.01 & log2FoldChange <0 )

UP_GENE <- unique(rownames(res0_1UP),rownames(res0_2UP),rownames(res0_3UP))
DOWN_GENE <- unique(rownames(res0_1DOWN),rownames(res0_2DOWN),rownames(res0_3DOWN))
length(UP_GENE) ### 97个
length(DOWN_GENE)  ## 95个

七、 特殊基因的表达情况

  • 下载 org.db。参照 【转录组入门八-功能注释】
library(AnnotationHub)
hub <- AnnotationHub()
query(hub, "thaliana")
ath.tair.db <- ath[["AH53758"]]
keytypes(ath.tair.db)##查看有哪些数据类型,包含着各大主流数据库的数据。
###用select函数,就可以把任意公共数据库的数据进行一一对应。
### keys是原始的ID,columns是转换之后的ID,keytype是要指定的原始ID类型

  • 转换基因名+直接画图
plotGeneCounts <- function(genes) {
  require(ggplot2)
  require(tidyr)
  require(dplyr)
  GeneName <- select(ath.tair.db, keys=genes, columns=c("TAIR"),keytype = "SYMBOL")
  GeneName <- GeneName[order(GeneName$TAIR), ]
  Data <- dds[which(rownames(dds) %in% GeneName$TAIR)]
  Data1 <- as.data.frame(assay(Data))
  Data1$gene <- GeneName$SYMBOL[GeneName$TAIR == rownames(Data1)]
  Data2 <- Data1 %>%
    gather(sample,count, -gene) %>%
    mutate(condition = rep(c("Day0","Day1","Day2","Day3"), each= length(sample) / 4))
  p <- ggplot(Data2)
  p1 <- p + geom_boxplot(aes(x=gene,y=count, fill=condition))
  p2 <- p1 + theme(axis.title.x = element_blank()) + ylab("Counts")
  print(p2)
  return(GeneName)
}
  • 结果:plotGeneCounts(c("STM","KNAT1","CLV1", "CLV3"))


    image
  • 结果:后期表达的基因表达量十分低。

  • plotGeneCounts(c("JAG","WOX1","WOX3"))


    image

-结果: 早期花的同源异型基因的表达量十分低。

  • plotGeneCounts(c("AP1","AP3","CAL"))


    image
  • 长日照基因 白天表达的基因 LHY ,CCA1 在植物转移到长日照条件下表达量显著提高,而夜晚表达的基因PRR5表达量显著下降。并且复合体编码基因LUX, ELF4也类似情况。

  • plotGeneCounts(c("CCA1","LHY","PRR5","LUX","ELF4"))


    image
  • 成花转变的一些关键性基因:如FD, SOC1,这些基因表达量逐渐上升。


    image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容