基因的基本组成
基因是具有功能的DNA序列片段,由编码序列和非编码序列交替构成,我们又称为割裂基因 split gene。人类基因主要由 外显子、内含子和侧翼序列组成。
外显子与内含子
- 外显子 exon 是基因内的编码序列;内含子 intron 是基因内的非编码序列。
- 外显子平均长度小于200bp;内含子平均长度3000bp。无内含子的基因较小,较大的基因,序列中内含子也较大。高表达的基因中,内含子较短。
- GT-AG法则,外显子与内含子接头的位置,都有高度保守的共有序列,为剪切识别信号,即内含子5’端核苷酸是GT,3’端是AG。
- 基因内基因,即内含子中存在若干小基因。
- 基因家族 gene family ,即基因组中一些功能相似的基因成簇的排列在一起(一条染色体上),这些基因可能同时发挥作用,也可能在不同发育阶段表达。
例:人类α和β珠蛋白基因簇。前者与ζ基因排列在16号染色体上,组成α珠蛋白基因簇;后者与其他四个基因排列在11号染色体上,组成β珠蛋白基因簇。在胚胎发育的不同阶段表达。 - 基因超家族 gene superfamily,即一些基因编码相似功能的蛋白,成簇的分布于几条不同的染色体上。
例:人类HOX基因是由38个相关基因组成的四个基因簇,分布于2、7、12和17号染色体上。 - 假基因 pseudogene,是一些与某些有功能的基因结构相似但不能表达基因产物的基因。可能是进化中,编码序列或调控元件发生突变、或cDNA插入,一般缺少启动子序列。
例:人类α珠蛋白基因簇中的假基因ψα与α基因相比,没有内含子,可能是cDNA插入导致。
基因家族与超家族的区别是,是否存在于同一条染色体上。此外,现在的教材相比我大学的教材,在具体细节上更丰富。
侧翼序列
侧翼序列 flanking sequence,即在每个基因序列的5’和3’端两侧的不转录序列。启动子在5’,终止子和多聚腺苷酸信号在3’,增强子两侧都可能存在。侧翼序列与基因的转录调控有关。
启动子 promoter
由一组段序列元件簇集在一个基因编码序列的上游构成,多位于基因起始点上游100-200bp范围;转录因子与之结合后,激活RNA聚合酶,启动RNA合成。- TATA框 TATA box
在转录起始点5’端上游-25~-30bp处有高度保守序列,由7个碱基构成,即TATAA(T)AA(T),两个碱基可变化。转录因子TFⅡ与之结合,再与RNA聚合酶Ⅱ形成复合物,识别转录起始点,启动基因转录。
- TATA框 TATA box
- CAAT框 CAAT box
在转录起始点5’端上游-70~-80bp处有高度保守序列,由9个碱基构成,即GGC(T)CAATCT,一个碱基可变化。转录因子CTF与之结合,提高转录效率。
- CAAT框 CAAT box
- GC框 GC box
某些基因没有上述两种元件,但含GC框,即GGCGGG,转录因子Sp1与之结合,促进转录。
- GC框 GC box
增强子 enhancer
- 短序列元件,特异性与调节蛋白结合,在启动子和增强子间形成DNA环,使增强子的结合蛋白与启动子的结合蛋白相互作用、或与RNA聚合酶相互作用,增强基因的转录活性。
- 启动子位于基因上游,起始点相对恒定;增强子可以位于任何位置,且功能与位置和序列方向无关,可以5’-3’方向,也可以是3’-5’方向。
沉默子 silencer
与增强子具有相似的性质,但是,是抑制特定基因转录活性的调节元件。终止子 terminater
由AATAAA和一段回文序列组成,AATAAA是多聚腺苷酸(polyA)的附加信号,回文序列转录后形成发夹结构,阻碍RNA聚合酶继续移动,转录终止。
侧翼序列是个新名词,实际是一段有效地基因序列中,不负责编码的那些部分。
基因的表达
基因的表达是DNA序列的遗传信息通过转录产生的mRNA经过翻译,最终形成蛋白质的过程。基因的表达遵循共线性原理 colinearity principle ,即DNA的线性核苷酸序列以碱基三联体 base triple 形式被转录为RNA的线性核苷酸序列,RNA以密码子 condon 形式被解码形成特定多肽的线性氨基酸序列,这种DNA-RNA-Protein的信息传递方式被称为中心法则。反转录酶的存在,使DNA-RNA间为双向信息传递。
转录 transcription
指以DNA双链中的一条链为模板,以ATP、CTP、GTP和UTP为原料,在RNA聚合酶催化下,按碱基互补方式合成RNA单链的过程。
这一过程发生于细胞核内,方向为5’-3’,转录产物RNA的序列与DNA模板链互补,与非模板链相同(T换成U)。前者称为 有义链 sense strand,后者称为 反义链 antisense strand。
真核细胞中,仅有少部分DNA处于转录中,转录单位无规律分布于基因组DNA中。转录产物有:mRNA(RNA聚合酶Ⅱ),核糖体RNA ribosoma RNA;rRNA(RNA聚合酶Ⅰ),转运RNA transfer RNA;tRNA(RNA聚合酶Ⅲ)。
mRNA传递遗传信息给蛋白质。过程如下:
剪接 splice
原始RNA转录本称为异质核RNA heterogeneous nuclear RNA,hnRNA,序列中包含外显子和内含子。剪接过程就是剪除内含子,将外显子连接的过程。- 剪接发生于二者交界处的GT和AG处;剪接起始的GT和相邻的保守序列组成 剪接供体位点 splice donor site,剪接终止的AG和相邻的保守序列组成 剪接受体位点 splice receptor site;在内含子末端有一个保守序列,称为 分支部位 branch site,位于AG上游40核苷酸处,这些序列构成剪接信号。
- 细胞核内的小核RNA蛋白 snRNP 识别这些信号(RNA-RNA碱基配对),形成剪接体 splicesome 切除内含子。前者由5种snRNA(snRANU1,U2,U4,U5和U6)和特定蛋白质构成。
加帽 capping
指在RNA转录本5’端连接上一个7-甲基鸟苷酸,封闭RNA的5’端,保护RNA转录本免受磷酸酶和核酸酶消化,增加稳定性。加尾 tailing
RNA转录本3’端在腺苷酸聚合酶作用下,经多聚腺苷酸化 polyadenylation 附加大约200个腺苷酸的长链,即多聚腺苷酸 polyA 尾。增加了mRNA稳定性,有利于核糖体识别。- 位置在3’非编码区6核苷酸信号AAUAAA的下游15-30bp的位置加上polyA。
翻译 translation
mRNA中间序列被翻译为氨基酸,5’和3’端是非翻译区 UTR,多数为第一和最后外显子序列,含有加帽和加尾序列。
翻译过程
多肽链是在mRNA、tRNA和核糖体协作下完成。核糖体是一个rRNA-Protein复合物,由60s和40s亚基构成。- 小亚基识别mRNA 5’的帽,沿序列移动到第一个起始密码子AUG,特别是,当AUG位于起始密码子识别序列GCCPuCCAUGG时才可以有效识别,尤其是AUG后的G,以及之前第三个核苷酸的嘌呤Pu,最好是A。
- 多种tRNA携带不同的氨基酸,tRNA上的反密码子与mRNA上的密码子识别互补,大小亚基结合合成肽链。直至终止密码子 UAA\UAG\UGA。
- 这个过程是多枚核糖体同时进行的,可形成多种肽链。mRNA 5’端对应氨基末端 NH2;3’端对应羧基端 COOH
遗传密码的兼并性
密码子共64个,但氨基酸仅20种,因此,不同密码子编码同一种氨基酸的特性称为遗传密码子的兼并性 degeneracy。- 此外,mRNA的密码子64个,细胞质tRNA的反密码子有30个,线粒体的tRNA的反密码子有22个。但翻译的过程仍可正常进行。因此,有观点认为存在摇摆假说 wobble hypothesis,即第一和二碱基遵循A-U,G-C规律,第三碱基可以发生摇摆。
翻译后修饰
多肽链在翻译后会发生复杂的修饰。有脱乙酰基、乙酰化、磷酸化、糖基化和切割,以及多条肽链的折叠连接等。
这部分是分子生物学的内容,所以很简单。也有一些名词被改变。
基因表达与调控
多数细胞中都表达的基因称为管家基因 housekeeping gene。
组蛋白乙酰化与DNA甲基化
细胞核中的染色质分为常染色质和异染色质两种(旧名词),现多按有无转录活性进行区别。前者松弛,与组蛋白结合弱,在S期早期复制;后者致密,与组蛋白结合紧密,在S期晚期复制。- 组蛋白乙酰化后,对DNA亲和力下降,使染色质松弛,适合基因表达;基因启动子区的CpG序列出现甲基化后,会与甲基化CpG结合蛋白 MeCP2 结合,抑制基因的表达。
顺式作用元件与反式作用因子
- 基因启动子区的保守序列能与TF特异性结合,调节基因转录,这些元件称为顺式作用元件 cis-acting element,位于5’端侧翼序列。
- 转录因子可以结合到这些序列,称为反式作用因子 trans-acting factor。TF之间也有复杂的作用,结构中都有一些相似的结构域基序,是蛋白与cis-acting element作用的基础。
- 根据结构域基序的不同,TF分为四种:
1)螺旋-转角-螺旋蛋白 helix-turn-helix ,一个氨基酸锻炼链接两个α螺旋结构
2)锌指蛋白 zinc finger
3)亮氨酸拉链蛋白 leucine zipper
4)螺旋-环-螺旋蛋白 helix-loop-helix
- 根据结构域基序的不同,TF分为四种:
剪接与多聚核苷酸化
一个基因的转录本可以通过剪接改变形成许多异构蛋白。参与主要调节因子是RNA结合蛋白的SR家族(C端含丝氨酸和精氨酸);还有一些snRNP蛋白。
此外,某些基因的转录本的3’UTR区可能存在多个多聚腺苷酸信号,体现了组织特异性,发挥不同的作用。
所谓顺式,反式的概念来自经典遗传学,也就是发现基因之前的遗传学。这些概念表达的是一种现象,而不是机理。所以某些被保留,某些被废除(同一种现象下,机理可能不同)。当初让我困惑了好久。TF是细胞内重要的信号分子,相关的文献读起来会很吃力。