RNA-seq即转录组测序技术,就是把mRNA,smallRNA等用高通量测序技术把它们的序列测出来,反映出它们的表达水平。
mRNA:信使message RNA是由DNA的一条链作为模板转录而来的、携带遗传信息的能指导蛋白质合成的一类单链核糖核酸。
small RNA:小分子RNA是一类长约20~30个核苷酸的非编码RNA分子,是一大类调控分子,包括:miRNA、ncRNA、siRNA、snoRNA、piRNA、rasiRNA等等。
这里提到了转录组的概念。搞清楚这个概念,就能理解之后 我们在做什么?为什么这
样做?
- 转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。
- 转录本(transcript) 在后期还会遇到一个类似的概念—转录本,它是指由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。
说到这里,我们就从基因开始缕一缕把~
基因是有遗传效应的DNA片段,可分为编码区与非编码区,而编码区包含外显子与内含子。根据中心法则的核心,遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。
1、外显子(expressed region,exon)是能最后出现在成熟RNA中的基因序列,又称表达序列;它在剪接(Splicing)后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。
2、内含子(Intron)是一个基因中非编码DNA片段,它分开相邻的外显子。更精确的定义是:内含子是阻断基因线性表达的序列。
在转录时,首先遗传信息由DNA编码区直接全部转录,形成Primary transript,又称hnRNA,为mRNA的前体;再由hnRNA进行剪切,将能够编码蛋白质的外显子(exon)拼接成mRNA。最后,由携带遗传信息的mRNA翻译成蛋白质。由于此时的mRNA完整携带了基因的表达信息(没有内含子等的干扰),故通过对mRNA测序可以反映完整的表达信息。
- 但是需要注意的是,剪切可不只有将所有外显子拼接的一种方式,事实上参加剪接的外显子可以不按其线性次序剪接,或内含子是否出内含子也可以不被切除而保留,即一个外显子现在成熟mRNA中是可以选择的,这种剪接方式称为选择性剪接(Alternative splicing, AS)。
- 一种基因可以经AS产生不同的剪切异构体(isofrom)编码不同的蛋白质,而这里isoform的概念即上面提到的转录本。一个基因可能存在多个转录本。如上图,基因经AS形成isoform1与isoform2分别翻译成不同的蛋白,执行不同的生理功能。
回到RNA-seq,通常所说的RNA-seq中涉及到的转录组,即狭义方面的转录组,即某个物种或特定细脃类型产生的所有转录本的集合。通过测序,能够直接反应不同mRNA对应的基因表达量的差异,并进行深入的分析。
简单来说—将获得的所有mRNA反转录为DNA链,打碎成300bp左右的片段(为什么要这个长度,之后测序会说),这时一个片段称为一个reads。根据已有的参考基因组及注释文件,将获得的所有reads归类到原属的基因上。这样就获得了表达矩阵(哪些基因有多少个reads比对上),到此称为上游分析,通常在Linux平台中完成。基于所获得的表达矩阵,可进行各种数据分析,比如基本的差异基因分析,还有富集分析等等,这些可归类为RNA-seq的下游分析,通常需要利用R语言工具来完成。
上面的流程图是从网上找到的一张图。感觉下游分析,自己也暂时只接触了几个,之后再了解下其它的吧。
这里提一下上面说的是有参转录组的情况。如果所研究的物种(比如人,老鼠等)有组装注释质量较好基因组序列,且和该基因组序列比对效率较高,那么可以采用有参转录组的分析策略。如果做的是比较小众的物种,那么就要采用无参转录组的分析,这里就不介绍了。
上述为目前阶段我所了解的分析流程,会涉及到测序原理、Linux、R语言,以及基础的生物学、统计学的一些知识。目前多方面都进行了初步的探索,会尝试自己在简书上梳理一下。
- 关于Linux、R语言已经专门列了专题,进行基础学习;
- 其它的一些基础知识以及实操会在这个系列里逐一梳理。
关于文中提到的内容,如有错误,恳请指正!部分图片来自网上,侵删~