转自:https://www.jianshu.com/p/fd2b417ceff8
基因组中重复序列大体分为两类:
- 串联重复(Tandem repeats,Tandem Duplication) (TRF可预测)
- 散在重复(Dispersed repeats),也被称为转座子(TE,transposable element
在植物中,着丝粒和端粒区域存在丰富的 逆转座子 (散在重复I型转座子) 和 串联重复序列(Satellite)。植物着丝粒是基因组中进化最剧烈、结构最复杂的区域,在物种形成和分化过程中发挥重要作用。大多数植物着丝粒结构复杂,主要是由高度重复的卫星DNA (satellite)以及中间穿插的逆转座子序列组成,其中着丝粒satellite序列单元长度主要集中在150 – 180 bp之间,例如水稻CentO和玉米CentC序列。
一. 串联重复
TD: Tandem Duplication ( TR: Tandem Repeat ) 都叫串联重复。串联重复序列是指以相对恒定的短序列为重复单位,首尾相接, 串联连接形成的重复序列,又称卫星DNA (satellite DNA)。在人类基因组中,串联重复序列约占10%,主要分布在非编码区,少数位于编码区。编码区中的串联重复序列与功能有关,非编码区串联重复序列多分布在间隔DNA或内含子,重复单位短的仅2bp长的可达数十碱基对,重复次数少则数次,多则几百次。重复序列的重复次数不同,是形成DNA长度多态性的基础。按重复序列的长度和序列特征分成大卫星DNA、小卫星DNA和微卫星DNA等主要类型。
微卫星在动物里面一般称为短串联重复序列(short tandem repeats, STRs),一般在植物里面称为(Simple Sequence Repeats,SSRs)。SSR在植物中经常被用作遗传标记使用。
二. 散在重复(TE 转座子)
转座子 transposable elements (TEs) 是一类能够在基因组上移动其位置的DNA序列。
1.LTR分类
按照整合方式分为:
- I型转座子: retrotransposons(逆转座子);RNA transposons;RNA转座子 以DNA为模板,转录为mRNA,mRNA再反转录为cDNA,在整合酶的作用下插入基因组的新位置。 “复制-粘贴”(逆转录是指以RNA为模板合成与其互补的cDNA的过程)
- II型转座子:DNA transposons;DNA转座子由DNA介导 “剪切-粘贴”
转座子按照能否自主移动,都分为自主性和非自主型。
- 自主型TEs只要自身就能在基因组上跳跃,
- 非自主型TE需要另外一个TE带着它才能跳跃。非自主型不能独立跳跃,是因为缺少转座酶(对于II类)或逆转录酶(对于I类)。
Ac/Ds系统中,Ac是自主型,Ds是非自主型。没有Ac,Ds自己不能发挥作用。
自主型元件通常含有 gag 和pol 两个基因,前者负责编码衣壳蛋白,后者负责编码多功能蛋白 ,其具有蛋白酶、反转录酶、RNase H以及整合酶的活性功能域;非自主型元件缺少完整或大部分转座所需蛋白的编码基因,其对应于自主元件的区域由不相关的序列或宿主序列组成。
TE具有扰乱被介入基因组成结构的潜在可能性,并被认为是导致生物基因发生渐变(有时候是突变),并最终促使生物进化的根本原因。如染色体的 插入insertion ,删除deletion,以及 易位transposition 是通过TEs 来改变的。
宿主尽可能降低转座发生对其基因组稳定性造成的威胁,转座元件也可以在转录水平 (transcriptional level) 或转录后水平上 (post-transcriptional level) 参与邻近基因的表达调控,并能以 “顺式” (in cis) 或 “反式” (in trans) 方式调控内源基因表达。
TE对基因组的影响(部分):
插入功能基因,使该基因失活,这便是假基因的来源;
插入编码区时,它们通常会引起移码突变或改变剪切模式,从而改变(大多数情况下是破坏)蛋白质功能;
插入或靠近调控区时,可以改变基因表达(如转录时序或转录量),或充当增强子或其它调控因子的角色。**
许多TE含有启动子来驱动自己的转座酶转录。这些启动子可引起连锁基因的异常表达,从而导致疾病或突变表型。编码反转录酶的 TE 有时不仅能将它们自己 RNA 的 DNA 拷贝(cDNA)插入到宿主基因组内,还能将其它基因的 RNA 转录物也插入到宿主基因组内,这些 RNA 的 cDNA 拷贝(反转录序列,retrosequence)类似于基因组内其它位置的祖先基因的外显子,只是它们没有调控区和内含子。大部分反转录序列是已加工假基因,并不产生有功能的基因产物。
通过转录和不等交换,TE 数量可增加或减少,从而改变基因组大小。
会增加宿主基因的突变率。
转座元件对插入位点基因的影响主要表现为:基因自身功能突变以及新功能化、基因结构变异、核酸序列和表观遗传修饰的重新编排等,这些影响最终可能造成表型变异。
三. 假基因(Pseudogene)
假基因是一类本来正常,但后来因为突变或转座,而可能失去了原来功能的基因,常用 ψ 表示。它在序列结构上与功能基因非常相似,但已丧失了正常的蛋白质编码功能。一般情况都不被转录。
1.假基因分类
假基因主要分为(重复假基因)duplicated pseudogene 和 (转座假基因或加工假基因)processed pseudogene or retropseudogene。
- 重复假基因:DNA复制 或 染色体不均等交换 过程中基因编码区或调控区发生突变(如碱基替换、插入、缺失),导致复制后的基因丧失正常功能而成为假基因。
- 转座子假基因:mRNA反转录成cDNA插入整合到基因组上,由于插入位点不合适或序列发生突变而失去正常功能,这样形成的假基因称为加工假基因或转座假基因。
假基因的数量与选择压力和转座子的活性有关,选择压力越大,转座子活性高,反转录成的转座假基因越多。所以一般情况下,假基因的Ka/Ks比较高。假基因的功能主要是在RNA水平上,类似于ncRNA。
逆转座子
目前主要存在两种类型RNA转座子(逆转座子):
- LTR (Long Terminal Repeat retrotransposons) 长末端重复反转录转座子 双末端都是长重复序列
- non-LTR TEs 双末端缺乏重复序列 LINE和SINE
LINE 元件的编码区由 ORF1 和ORF2 共同构成,ORF1 与 gag基因编码的产物类似,ORF2 则含有内切酶(EN)和反转录酶(RT)的编码基因。LINE 和 SINE 均以简单的序列重复结尾,通常有poly(A)。对所有已知 SINE 分析发现,它们的近 5 ‘端都含有一个潜在的 RNA pol III 启动子,而除了 3' 端的序列与 LINE 同源外,其余部分的特征还不清楚,暗示SINE 在基因组中作为非自主元件,可能借助LINE 的自主转座机制进行自我复制。LINE 在植物中的比例较低,而 SINE 则以高拷贝形式存在。
LTR-RTs 的结构特征
典型的 LTR-RTs 的结构有 5 个特征,各特征意义如下:
(1) TSR(TSD):目标重复位点,是 4~6bp 的短的重复序列,在 5’LTR and 3’LTR 两侧,是转座子插入的信号。
(2) 5’LTR and 3’LTR : LTR 两端序列完全一致的末端重复, TG..CA box,完整的 LTR 均含有此结构。LTR 长度一般在 85~5000bp。
(3) PBS(primer binding site) 引物结合位点: 在 5’LTR 的末端,可与一些 tRNA 3’ 末端互补结合的一段 18bp 左右的序列,是反转录的第一步。
(4) 蛋白区域: 长度通常在 1000~15000bp。 GAG:衣壳蛋白。 POL:包含 4 种酶,有AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆转录酶)、RH(核糖核酸酶),LTR 能否自主转座的关键原因。 ENV:包膜蛋白,后生动物中存在。
(5) PPT:3’LTR 的起始位置短的富含嘌呤的序列,11~15bp。
在植物基因组中,I类转座因子,LTR-RT (LTR retrotransposons) 是基因组扩张的主要原因。
DNA转座子
DNA转座子可以分为4类:1)DDE转座酶介导的剪切粘贴转座:如Tc1/Mariner,P元件;2)酪氨酸转座酶转座子,即Cryptons;3)Helitron;4)Mavericks(也即,Polinton)
DNA转座子具有末端反向重复序列(terminal inverted repeat,TIR)和靶位点重复序列(target site duplication,TSD),其中非自主元件也被看作是自主型转座子发生内在编码序列缺失的形式。微型反向重复转座元件 (miniatureinverted-repeat transposable element,MITE)是非自主元件中拷贝数最多的转座子,尽管它们不能自主转座,但在动、植物物种均以高拷贝形式存在。非自主元件的另一个重要特征是它们能够携带宿主的基因片段发生转座。
前两类(DDE和Cryptons)的转座比较简单,结构构成只有一个开放阅读框,编码重组酶,两端含有短末端倒置重复序列(TIRs)。Cryptons在真核生物中分布较少;DDE类转座子是所有TE中分布最广,种类最多的一类转座元件,其至少包含了17个超家族。甚至可以说,DDE是地球上最古老、最丰富的的基因。
Helitrons 转座子是近年来发现的一种新型 DNA 转座子,在黑腹果蝇、线虫、拟南芥等物种中广泛存在。它的结构很简单,没有短末端倒置重复序列(TIRs)等经典DNA转座子结构,不能自主移动,没有“剪切粘贴”。
转座子造成突变和基因多态
转座子在物种基因组中占有较大的比例。在人类基因组中,转座子占44%;在玉米中,其基因组有60%-70%是由LTR逆转座子组成的,有些还是物种独有的。
黑腹果蝇中的一些转座子在拟果蝇的同源位点却不存在,说明这些转座是新发的。可见很多转座子还很活跃,转座过程是导致基因组突变的一个重要原因。在实验室中,有超过一半的黑腹果蝇表型突变是由于各种不同的转座子转座插入导致的。同样的,在实验室小鼠群体中,也有10%-15%的表型突变是由于LTR转座子导致的。而且,这一估计可能还是比较保守的,研究显示,当物种在较大生存压力的条件下,转座的发生频率会更高。因而,对于野外自然种群,转座导致的突变可能比实验室种群更为普遍。
在群体中固定下来的转座子,随着时间的流逝,这些转座子会被各种点突变侵蚀,并且最终导致转座子失去转座能力。比如,在人类单倍体基因组中,有~500000个L1拷贝,但是其中的99.9%是在群体中固定下来的,并且由于各种突变的累积,这些L1转座子不再具有转座活性。犹如一座死火山存在于人类的基因组中。
研究估计,每个人还含有100个具有活性的L1拷贝,这些L1拷贝还很年轻,在人群中还没有进化固定下来。所以,人类的参考基因组并不能表示其含有人类所有的转座子。任何两个人类单倍体基因组大概都有1000个不同的转座插入,这些转座插入主要是L1转座子和Alu转座子。在其他物种,比如玉米,其各个基因组的转座差异可能更大。
另外,转座子的水平转移也是非常普遍的,几乎涉及到每一个物种。目前这种水平转移的机制还尚待进一步研究。
转座子影响基因重排
转座子会导致基因组的增大, 这在一定程度上抵消了基因组的删除变异导致的基因组变小。两个作用共同维持了真核生物基因组大小的相对稳定。但是转座子的插入并非精确,转座过程又是会影响到周边的宿主序列,从而导致宿主序列的重复和重排,而且可能会影响到功能基因或者其调控序列。比如,有研究发现在大米中,MULE的DNA转座子导致了1000个基因片段的重排。
除了上述转座直接带来的基因重排外,转座子还会给基因组带来很多散布的重复序列。即便是转座子本身失去转座能力,其带来的重复序列也是诱导基因组结构变异的因素之一。比如基因重组,重复序列使得非同一位置的交叉互换成为可能,因而导致较大规模的序列缺失、序列重复和序列倒位。
转座子可能形成特性的染色体结构。双翅目昆虫在进化过程中端粒酶丢失,但是在果蝇中,人们发现类似LINE的逆转座子起到了类似端粒酶的作用,形成并维持了果蝇染色体的端粒。事实上,很多人也认为端粒酶中的逆转录酶起源于逆转录元件的一个古老分支。
转座表达和转座抑制
为了在进化中得到持续,转座子必须在表达和抑制中寻找到平衡。转座子的过度表达可能会给宿主基因组带来过多的害处,从而也不利于转座子自身的维持。这也是为什么很多转座相关的酶并不处于其最活跃状态,也解释了为什么很多转座子含有自身调控机制。
此外,宿主本身也还有很多调控转座的机制,比如小RNA的形成,染色质的形成,DNA修饰,以及一些抑制转座的因子。但是宿主抑制转座的机制并不能长期存在,还要考虑到细胞本身基因表达的需要,比如在胚胎发育早期,宿主要避免过度的转座抑制,否则会影响到自身发育。再比如,在生殖系细胞形成过程中,基因组大量DNA去甲基化(去除“遗传印记”),这对转座子是一个千载难逢的好机会,去甲基化的DNA有利于转座的发生。
针对不同的组织和生命阶段,转座对宿主的影响也存在很大差异。在转座子看来,应该尽量避免在体细胞中表达,在体细胞中表达不能传递给下一代,对转座子自身的维持和进化无益。一些研究也确实如此,证明了转座更加倾向于在生殖系细胞中发生。
转座子在体细胞和生殖系细胞中导致的突变
和其他很多物种类似,在人类中,转座表达和转座抑制仍然是在一个动态竞争过程。比如L1逆转座子依赖于其编码的逆转座蛋白。这些逆转座在人类生殖系细胞中的插入是导致遗传病的原因之一。研究显示,有超过120个独立转座插入是和人类疾病相关的。对于L1转座子,其在人类生殖系新发生的概率是每95个新生儿中有1个,对于Alu转座子(Alu元件是人类基因组中丰度最高的转座元件,非LTR SINEs类),其发生概率是每21个新生儿中有1个。
既往对转座子的研究多集中于生殖系细胞中,因为体细胞转座对进化意义不大。但是实际上,转座子在体细胞中仍然是比较活跃的。在人类中,L1的表达和转座在不同的体细胞中都有发生,包括早期胚胎细胞和某些干细胞。在哺乳动物大脑中,一些转座子也有发生。但是研究体细胞转座最大的挑战来自如何进行单细胞插入位点的识别。
体细胞中的转座活动和人类的肿瘤有关,某些肿瘤细胞可能会形成数百个新的转座插入。新转座的插入导致了肿瘤抑制因子的失活,从而促进了肿瘤的发生。
转座带来的其他危害
** 转座子的直接危害是其导致的DNA断裂和插入。但是它并不是唯一(甚至不是最主要)危害宿主的方式。被激活的转座子可以通过多种方式危害宿主。比如,转座子的去抑制以及其发生的转录都可能会干扰到宿主自身mRNA的正常功能。再比如,转座子编码的蛋白(内切酶)会导致宿主DNA的断裂,影响基因组稳定。此外,RNA转录的累积和转座子带来的外源DNA序列可能激发机体固有免疫反应,从而导致自身免疫疾病和无菌性炎症。**
转座子完成转录之后,要进行翻译,以及逆转录(对于逆转座子),该过程的发生会导致细胞质DNA的形成,以及DNA:RNA
杂合序列的存在,这可能会诱导细胞炎症反应。
虽然并不是所有的转座子都编码蛋白,但是很多转座子的转座过程会翻译出蛋白,比如Gag
蛋白,Pol
蛋白,Env
蛋白。其中Env
蛋白具有细胞毒性,和神经元退行性疾病、肌萎缩性侧索硬化症等有关。
转座导致的编码和非编码RNA
转座插入给宿主带来的并非只是坏处,转座插入可能会给一些编码基因和非编码RNA的出现提供原始材料,并且发挥重要的细胞功能。这一过程也称之为转座子的驯化**domestication**
。
转座子驯化对细胞保守功能的形成具有重要作用。某些转座子编码的基因可能会被宿主驯化,使转座子失去独立转座的能力,成为宿主基因组的一部分。比如在脊椎动物免疫系统中,Rag1
和Rag2
两个基因都是来源于5亿年前某个DNA转座子,其被宿主驯化之后,对宿主V(D)J体细胞重组有重要作用,从而促进了免疫系统的功能。
LTR逆转座子的gag
基因和env
基因以及内源性逆转录病毒(ERVs)也经历了宿主的驯化,对胎盘发育、外源逆转录病毒免疫、大脑发育等有重要作用。
多次独立对env
基因的驯化,形成了syncytins
基因,从而促进了胎盘中细胞的融合和合胞体兹养层的形成。syncytins
基因几乎在所有的哺乳动物分支中都有发现,可见转座子对生物进化也是有积极意义的。
在四足脊椎动物祖先中,通过对LTR转座子的gag
基因驯化,形成了Arc
基因, 该基因对记忆的形成和突触的可塑性有重要意义,它保留了gag
基因的大部分功能,比如对自身RNA的包装和胞间转运。同样,在果蝇中,也发现类似的基因,其起源是对不同支系LTR逆转座子类似gag
基因的驯化(类似于脊椎动物)。
上述例子都是转座子将自身基因贡献给了宿主基因组,有时,转座子可以作为外显子添加到宿主某些基因中。比如人类中,Alu常常容易被当做外显子而成为某个基因的一部分。
研究显示,L1转座子和人类基因组中成千上万的逆转录基因有关。其中很多逆转录基因仍然具有活性,并发挥着重要的细胞功能。有估计,每6000人中就有1人含有一个新的逆转录基因。
转座子还和很多非编码RNA有关。包含在IncRNA和mRNA中的转座子序列能直接调节其RNA的稳定性等功能。
转座子对顺式调控元件的作用
转座子能够通过影响顺式调控元件来影响基因的表达。比如,通过影响启动子上游的转座子的甲基化水平,能够改变小鼠皮毛的颜色。在油棕榈中,位于一个控制开花基因中的转座子的甲基化水平,最终决定了该株植物是否产含油量高的果实。转座序列含有一个基因调控网中所需的所有要件。
TE水平转移
https://mp.weixin.qq.com/s/XKpEWzT9fIzlx8vUvwgcCg#tocbar-1537coe
研究转座子需要特殊工具
长期以来人们忽略了对转座子的研究,即便现在人们对转座子研究也很具挑战。特别是转座子高度重复性的序列,在分析这些转座子时往往需要特有的一些实验和分析工具。很多序列靶向工具,比如PCR或者CRISPR-Cas9,需要避免转座子导致的重读序列,保证靶向序列的唯一性。
同样的,这种重复序列对基因组比对也颇具挑战。不同物种重读序列比对难度也有所差异。比如在小鼠中,很多转座子是最新发生的,对这些重复序列的比对要比对人的比对困难。 此外,测序读长的增长,特别是三代长读长测序,在一定程度上解决了转座子带来的重复序列的比对。
由于其可复制可移动的特点,TE在基因组中有时非常丰富,在有些物种中占到了80%以上(玉米基因组中有85%的TE)。这经常给编码基因的预测和注释带来困难,因此通常在进行编码基因预测和注释之前需要将TE进行屏蔽。
作为一种插入性致突变因素,转座子对宿主基因组既有积极的一面,也有有害的一面。在人类等大多数物种中(特别是有效群体数量较小的物种),转座子在遗传漂变的作用下,大都在群体中固定下来,其对宿主基因组的影响是近乎中性的。
转座子在基因组中的分布不是随机的。转座的发生是基因变异的重要诱因,同时也会有调控基因表达的作用。
转座子和很多病毒有相似的基因组组成,所以也有假说认为转座子和某些病毒是有共同祖先的,或者病毒起源于转座子。
声明:本篇多为资料整理总结,仅用于自学记录和交流,侵删,谢谢。参考:
wo_monic https://www.jianshu.com/p/9191633017a1
南之绿桑 https://www.jianshu.com/p/6273241b26bc
https://www.jianshu.com/p/8fa4ef437870
Bourque, G., Burns, K. H., Gehring, M., Gorbunova, V., Seluanov, A., Hammell, M., ... & Feschotte, C. (2018). Ten things you should know about transposable elements. Genome biology, 19(1), 1-12.
liuhui|刘辉 https://hui-liu.github.io/blog/TE%E5%AF%B9%E5%9F%BA%E5%9B%A0%E7%BB%84%E7%9A%84%E5%BD%B1%E5%93%8D/
AI写代码的DNA 义冠 https://mp.weixin.qq.com/s/0ka37OAHwvBqx1mWWosjVQ
AI写代码的DNA 义冠 https://mp.weixin.qq.com/s/XKpEWzT9fIzlx8vUvwgcCg#tocbar-1537coe
崔勰奎,曹晓风.高等植物转座元件功能研究进展[J].生物化学与生物物理进展,2015,42(11):1033-1046.
<meta charset="utf-8">
知乎回答:转座子的起源和存在的意义是什么 大肠杆君
https://www.zhihu.com/question/54103290
补充一个TE对于动物性状的影响例子:
参考:https://www.bilibili.com/video/BV1hA411E7Fq?spm_id_from=333.999.0.0