启动子、增强子、沉默子、顺式作用元件等都是DNA序列上的结构概念,mRNA里面是不包含的!
5'UTR和3'UTR分别存在于第1和最后1个外显子上。
下面我们来专门了解下ORF和CDS的关系:
1.ORF
ORF 的英文展开是 open reading frame(开放阅读框)。
ORF 是理论上的氨基酸编码区,一般是在分析基因序列得到的。把基因的mRNA序列输入到程序中,程序会自动在序列中寻找启动子(ATG 或 AUG),然后按每 3 个碱基一组,一直延伸寻找下去,直到碰到终止子(TAA 或 TAG)。此时程序就把这个区域当成 一个ORF 区,认为理论上可以编码一组氨基酸。但问题是,在一个mRNA中寻找 ATG 并不靠谱。因为寻找到的 ATG 很可能是相邻两个密码子的尾和头的混合体。
ATGCAGCGTACTC
看上面这个小序列,有三种蛋白质编码组合的可能
(1)ATG | ORF寻找程序会认为这是一个启动子
(2)GCA | 一个普通的序列
(3)TGC | 一个普通的序列
这就是 ORF 三种框架的来源。实际上,DNA 序列可以按六种框架阅读和翻译(每条链三种,对应六种不同的三联密码子)。
那么哪一种是正确的呢?这得结合基因的产物(蛋白质)来进行确定。
tips:
一个mRNA可能有很多个ORF
不同的ORF长度不一样,有的甚至只有十几个碱基,这很明显就是一个错误的阅读框。
我们一般认为最长的那个是正确的ORF,要真正确定,需要根据蛋白质的序列来查证。
所以,我们说 ORF 只是理论上的编码区,与真实的情景可能并不一样。
2.CDS
CDS 是 Coding sequence 的缩写,是编码一段蛋白产物的序列。
与开放阅读框 ORF 的区别:
开放阅读框是从一个起始密码子开始到一个终止密码子结束的一段序列;不是所有阅读框都能表达出蛋白产物,或者能表达出占有优势或者能产生生物学功能的蛋白。
CDS,是编码一段蛋白产物的序列。
CDS 必定是一个 ORF。但也可能包括很多 ORF。 反之,每个 ORF 不一定都是 CDS。