基因组特征(GenomicFeatures)
包括基因组上的基因模型(gene model)或其他序列特征(gene feature),如genes、exons、UTRs、transcripts等。基因模型被定义为基因产物的描述,包括来源于计算预测、mRNA测序或遗传特征的基因产物。该基因特征旨在近似覆盖该领域的工作者认为是基因的核酸区域。
基因模型(gene model)
基因模型封装了单个剪接异构体(基因)所有的编码和非编码结构,每个基因模型可转录成数个转录本mRNA。转录本是基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA。外显子代表剪接后无内含子的部分。一个外显子可能仅部分编码(翻译)蛋白,在5’和3’的外显子包含一段非翻译区UTR,UTR代表了RNA exon的非蛋白质编码部分。每个外显子的蛋白质编码部分表示为CDS,CDS与蛋白质序列一一对应,也包含了终止密码子。
转录本(transcript)
转录本是从DNA模板转录形成的RNA分子。刚转录完成的RNA是被转录的DNA的精确拷贝,称初级转录本(primary transcript)。经过一些修饰(5’端加帽,3’端加尾,剪接,编辑,修饰)后的RNA不再与相对应的DNA链完全一致,为成熟转录本(mature transcript)。一个基因可能会形成多个转录本。由于选择性剪接(可变剪接,alternative splicing)的存在(外显子跳跃、内含子保留、外显子互斥、Alternative 5’ splice site、Alternative 3’ splice site等),一个mRNA前体(pre-mRNA)可以通过不同的剪接方式产生不同的成熟mRNA,最终翻译形成不同的蛋白质。
启动子(promoter)
DNA分子上能与RNA聚合酶结合并形成转录起始复合物的区域,能活化RNA聚合酶并起始转录。位于DNA序列上结构基因的5'端上游,本身并不被转录。转录起点是指与新生RNA链第一个核苷酸相对应DNA链上的碱基,记为+1,下游方向依次为+2、+3,上游方向依次为-1、-2、-3。真核细胞的3类RNA聚合酶分别识别不同的启动子,重要的启动子区包括,-25~-30TAAA(TATA box),-70~-78 CCAAT(CAAT box)。原核生物重要的启动子区包括,-70~-78 CCAAT(CAAT box),-35区TTGACA,-25~-30 TATAAAAG(TATA box),-10区TATAAT(Pribnow box)。TATA框上游的保守序列称为上游启动子元件(upstream promoter element,UPE)或上游激活序列(uptream activating sequence,UAS)。转录因子(transcription factors)能够调控RNA聚合酶与DNA模板的结合,转录因子与RNA聚合酶II形成转录起始复合体,转录因子根据作用特点可分为两类,一类是普遍转录因子,一类是组织细胞特异性转录因子。
终止子(terminator)
DNA分子上能终止RNA聚合酶转录的区域。可分为依赖蛋白辅因子的终止子和不依赖于蛋白质辅因子的终止子。
起始密码子(start codon,initiation codon)
起始密码子是mRNA翻译成蛋白质时被核糖体识别并与起始tRNA结合的第一个密码子,翻译形成多肽链的第一个氨基酸。真核生物的起始密码子AUG对应的是甲硫氨酸(Met),起始tRNA为甲硫氨酸tRNA。原核生物起始tRNA为甲酰甲硫氨酸tRNA,某些原核生物也以GUG(缬氨酸)和UUG为起始密码子
终止密码子(stop codon,termination codon)
蛋白质翻译过程中终止肽链合成的密码子。一般为UAA、UGA、UAG,它们不编码氨基酸。
开放阅读框(Open Reading Frame,ORF)
开放阅读框是基因序列中具有编码蛋白质潜能且没有终止密码子打断的一部分,即DNA中对应的从起始密码子到终止密码子的区间。在DNA中寻找起始密码子AUG对应的ATG,然后按三个碱基一组向后延伸,一直到出现终止密码子UAA、UGA、UAG对应的序列。
编码序列(coding sequences,CDS)
CDS是与蛋白质序列一一对应的DNA序列。从起始密码子ATG开始,到终止密码子结束,不包括内含子,也不包括5’-UTR和3’-UTR。CDS是ORF的一个子集。
外显子(exon)和内含子(intron)
外显子是真核生物基因的一部分,它在剪接后仍然保留在成熟RNA分子上,并被表达为蛋白质。外显子是最后出现在成熟RNA中的基因序列,又称表达序列(expressed region),被内含子隔开。DNA上的内含子会被转录到前体RNA中,但经过剪接被去除,不出现在成熟RNA分子中。内含子叫作非编码序列(non-coding sequence)。外显子包含了UTR,UTR代表了RNA exon的非蛋白质编码部分。
非翻译区(untranslated region,UTR)
是成熟的mRNA分子两端的不翻译成蛋白质的片段。5’-UTR从mRNA起点甲基化鸟苷酸帽子至AUG,3’-UTR从终止密码子至poly-A尾的前端。虽然5’-UTR和3’-UTR没有翻译,但它们在维持mRNA的稳定性、亚细胞定位和翻译调控方面起着重要的作用。成熟mRNA两端的帽子和尾巴是转录后修饰加上去的。