1.多个转录本:
一个基因产生多个转录本通常是由一种原因或者几种原因导致,最可能的原因有四种:
1. Alternative splicing
选择性剪接(Alternative splicing)是基因的一种表现方式。生物的基因序列中,包含了内含子(intron)与外显子(exon),两者交互穿插,组成基因。其中内含子并不表现,外显子才是能够转录成mRNA(之后再进一步转译成蛋白质)的片段。
而选择性剪接便是利用这样的特性,将同一基因中的外显子以不同的组合方式表现,制造出不同的蛋白质。比如基因Gene ID: 2668的NM_001190468.1转录本和NM_199231.2转录本;
2. Alternative promoter usage
同一个基因可能由不同的启动子导致产生不同的蛋白质,比如Gene ID: 2668的NM_000514.4转录本;
3. Alternative initiation
同一条mRNA中使用不同的翻译起始密码子,通常情况下产生出仅仅在N端有差别的蛋白质序列,比如基因Gene ID: 2668的NM_001278098.1转录本;
4. Ribosomal frameshifting
一种翻译重编码机制,其导致核糖体改变其对遗传密码的读取,产生不是由mRNA直接编码的蛋白质,或者两种甚至更多种不同的蛋白质。
2.外显子、内含子、mRNA、CDS、ORF区
基因DNA分为编码区和非编码区,编码区也就是转录区包含外显子和内含子,一般非编码区有基因表达的调控功能。外显子和内含子都被转录到mRNA前体hnRNA中,当hnRNA经过剪接后变为成熟mRNA后。内含子被剪除(又叫非编码RNA),外显子保留,真正编码蛋白质的是外显子,但不是所有的外显子都能翻译成蛋白。因为剪接后内含子组成mRNA后,mRNA包括UTR(非翻译区)和CDS(蛋白编码区)。CDS蛋白质编码区,是真正编码一段蛋白产物的序列。
开放读码区ORF 是从一个起始密码子开始到一个终止密码子结束的一段序列,不是所有的读码区都能表达出蛋白产物。 CDS和ORF的关系 CDS必然是ORF,但是ORF不一定是CDS,因为不是所有的ORF都能最终表达产生蛋白产物。 ORF--translation CDS----transcription