实际上,真正可用的基因只占人类基因组的3%,其余97%都是非编码序列,但是非编码序列也是可以表达的,表达产物就是非编码RNA(ncRNA)。
人类基因组中约93%的DNA是能转录为RNA的,其中2%是mRNA,98%是非编码RNA(ncRNA)。
RNA转录本分类
非编码RNA(ncRNA)可以分为调控RNA和管家RNA两种。
调控RNA
miRNA: 微RNA (microRNA),18-25 nt.(nt=nucleotide核糖核苷酸),单链
siRNA: 小干扰RNA (smallinterfering RNA),21-23 nt.,双链
piRNA: piwi相互作用RNA (piwi-interacting RNA),26-35 nt.,单链,这是动物生殖细胞所特有的小RNA,转座子沉默
lncRNA: 长非编码RNA (long non-coding RNA),>500 nt.,比如Xist、PCGEM1等
管家RNA
rRNA: 核糖体RNA (ribosome RNA),26-35 nt.,单链,是构成核糖体的组成成分,有多种不同的大小,如28S、18S、5S等
tRNA: 转运RNA (transfer RNA),70-80 nt.,单链,三叶草构型,在蛋白质合成过程中起到转运氨基酸的作用,对于不同的物种,其rRNA分子的大小和种类都可能有所不同
snoRNA: 核仁小RNA (smallnucleolar RNA)
sacRNA: Small Cajal body-specific RNAs,是一种特殊的核仁小RNA,专一位于卡哈尔体(Cajal body)上,可以催化核糖核蛋白的生成
Telomerase RNA: 端粒酶RNA,是端粒酶的一部分,在端粒延伸过程中,作为端粒继续延伸的模板,由端粒酶催化实现端粒的延长
热门ncRNA——lncRNA、miRNA、circleRNA
目前研究最热门的ncRNA主要集中在lncRNA、miRNA、circleRNA三种。
IncRNA: lncRNA可通过折叠形成一定的空间结构与多种蛋白互作,也可通过碱基互补配对与其它核酸进行识别,这种识别又可将蛋白引导至特定序列位点,这些特点使得lncRNA在发育和癌症中的功能发挥得更加丰富。
lncRNA
作为RNA诱饵,结合转录因子,干扰其与基因promoter区域的结合,从而调控转录;作为分子海绵,吸附miRNA,抑制其与mRNA的结合,使得mRNA免于降解;作为蛋白互作的支架或桥梁,影响蛋白多聚物的形成,调控蛋白活性;招募染色质修饰因子,改变染色质的修饰水平,从而影响基因的转录和表达;与mRNA配对结合,抑制翻译;与mRNA配对结合,影响剪切;与mRNA配对结合,影响mRNA的稳定性。
circleRNA: circRNA分子呈封闭环状结构,无游离5‘和3’末端,不易被核酸外切酶RNaseR降解,比线性RNA更加稳定。 长度约200-2000bp,主要长度分布在500bp左右。
circleRNA
circleRNA大多数来源于外显子,少部分由内含子直接环化形成。其形成有四种模式: 套索驱动的环化、内含子碱基配对驱动环化、单个内含子成环、RNA结合蛋白驱动环化。
它可以通过竞争性结合miRNA、线性亲本基因的转录,甚至是编码多肽来发挥生物学功能。
circRNA作为ceRNA(内源竞争性RNA)竞争性结合miRNA;circRNA结合RNA结合蛋白(RBP)以形成RNA-蛋白复合物(RPC),调控线性亲本基因的转录;编码功能,circRNA具有内部核糖体进入位点(IRES),能合成多肽。
miRNA: miRNA一类由内源基因编码的非编码单链RNA分子,其长度约为19-25nt,其在肿瘤发生发展、生物发育、器官形成、病毒防御、表观调控以及代谢等方面起着极其重要的调控作用。
miRNA
RNA聚合酶II/III转录成pri-miRNA,Drosa/DGCR8复合体将其裂解为pre-miRNA(前体miRNA);Exportin-5-Ran-GTP复合物将pre-miRNA转运出核;Dicer酶裂解pre-miRNA至成熟的长度(19-25nt);双链的miRNA被转载进AGO2,一条链降解,一条链形成RISC,发挥生物学功能。生物学功能有:mRNA的裂解及降解、抑制翻译。此外还有转录调控功能。
RNA-seq结果解读
目前在生信里面应用最为广泛和成熟的RNA-seq技术就是转录组测序,狭义上也就是指的全部mRNA的表达水平,而RNA-seq完成后会生成很多的数据和图片,如火山图、韦恩图、聚类热图等。
火山图(Volcano Plot)显示了两个重要的指标: fold change和校正后的p value,利用t检验分析出两样本间显著差异表达的基因后,以log2(fold change)为横坐标,以t检验显著性检验p值的负对数-log10(adj p-value)为纵坐标。
红色代表基因上调,绿色代表基因下调。
横轴: fold change代表检测样本对对照样本(TS vs CK)的RNA表达量倍数(商)。图中当横轴为1时,代表表达量为2倍关系(log2(2)=1)。
纵轴: padj就是adj p-value(调整p值),代表差异是否具有显著性,统计学中,以p<0.05代表差异具备显著性,由于-log10(0.05)=1.3,所以图示中1.3以上的点代表差异具有显著性。
韦恩图(Vene PLot)用于显示元素集合重叠区域的图示。
在RNA-seq项目中,每个椭圆表示一个比较集合(处理组 vs 对照组)中的差异基因,椭圆重叠区域的数字表示对应的多个比较集合之间的共有差异基因个数。如图示,集合A、B、C、D共有差异基因有44个。
聚类热图(Clustered HeatMap)可用于判断不同实验条件下差异基因的表达模式,热力值表示该点的基因表达。
红色: 表示基因表达水平高;蓝色: 表示基因表达水平低。
横轴代表不同的实验处理条件/样本(cell),纵轴代表差异基因(gene),并且差异基因已经进行了聚类分组,表达模式或相近的差异基因会被聚类为一组。