在上一期中我们得到了cleandata,接下来是要比对到参考基因上进行比对过程的分析。一般来说,在比对之前,我们可以选择先去除rRNA序列然后再与参考基因组进行比对,文章中采用的策略也是如此:
那么你或许会有以下几个随着而来的问题:
- 1.为什么测序数据中会出现rRNA?
- 2.rRNA不去除与去除会对我后面的分析造成什么样的影响?
rRNA背景知识
在进行具体操作之前,我们可以来先了解一下rRNA这个东西。
首先,看rRNA在整个细胞中的组成比例:从mass指标来看,一个哺乳动物的细胞中rRNA占比最多,能达到80-90%
比例:
Note:Estimate of RNA levels in a typical mammalian cell。ref:Front Genet. 2015 Jan 26;6:2
rRNA在参考基因组上存在多个copy:比对时会造成数据比对结果中多比率偏高。rRNA的存在对后续的影响就主要看后面的分析使用的是唯一比对reads还是所有比对上的reads了。那么,数据中为什么会测到rRNA呢?这就跟前期建库采用的策略有关系了,去除rRNA的试剂盒的效率等问题。
此次,我们先去文中提到的网址下载rRNA序列,然后使用bowtie2进行比对。
rRNA序列下载
打开NCBI网址,选择Taxonomy数据库,输入10090,10090为小鼠的物种ID
选择右侧 Nucleotide
保存
下载下来的数据:fasta格式
确认一下下载是否完整,为82条:
rRNA比对保存没有比对上的序列
首先,建索引:
bowtie2-build Mus_musculus.rRNA.fa Mus_musculus.rRNA
索引结果:
比对:
mkdir bowtie2
# 换成自己的路径,注意index为索引前缀
index=/path/rRNA_index/Mus_musculus.rRNA
od=/path/bowtie2
# 单端数据
ls *gz |while read id
do
sam=${id%_*};
nohup bowtie2 -x $index --un-gz ${od}/${sam}.derRNA.fq.gz -U $id -p 8 -S ${od}/${sam}.rRNA.mapped.sam 2>${od}/${sam}.log &
done
# 双端数据
可以看文献中的代码,文献中提供的为双端数据
比对完之后的数据:
后续更新~