转座子序列的注释(工具介绍)
关于TE的信息被编目为三种类型的存储库:以TE为中心(TE-centric),以基因组为中心(genome-centric) 和以多态性为中心(polymorphism-centric)。以TE为中心的存储库收集各类TE家族的共有序列;以基因组为中心的存储库将参考基因组中的所有单个TE元件进行编录;多态性为主的存储库包含不同于参考基因组中的个体独有的插入。
A. TE-centric repositories
这类存储库关注转座元件本身,在这种类型的数据库中,我们能检索到各类转座元件家族,亚家族的共有序列,它们主要被用在基因组中转座元件的分类和注释。
RepBase Update 是目前检索真核生物基因组中各类移动元件/转座元件共有序列集的最常用的数据库之一。这个数据库旨在给出每一类TE家族的共有序列和代表型元件类型。它将转座元件分为三类:DNA转座子,LTR逆转录转座子(Long Terminal Repeat Retrotransposons)和non-LTR逆转录转座子。
Dfam是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。
B. Genomr-centric repositories
以基因组为中心的TE数据库主要集合了参考基因组上注释的各个转座元件。这类数据库能够展示各物种基因组内以及不同TE家族中包含的转座元件的多样性。
另外,由于能够在完整的参考基因组中进行检索,这种类型的数据库能够提供TE元件本身序列外的“侧翼序列”,从而给出更准确的我们想要检索的TE元件类型,序列以及在参考基因组当中的位置信息。
在研究哺乳动物转座元件时,Dfam数据库是唯一包含以上信息的数据库。同时RepeatMasker也能提供基因组上不同的TE元件的序列以及位置信息通过基因组浏览器。
还有一些数据库是对那些插入到基因组上各基因的编码区的转座元件做汇总,包括TranspoGene, HESAS,以及LINE FUSION GENES。
C. Polymorphism-centric repositories
所谓多态性插入事件,即在参考基因组中找不到这个插入但是却在某个或某些特定的个体当中找到了,包括生殖细胞系多态性插入(germline polymorphism insertions)以及体细胞系多态性插入(somatic polymorphism insertion)。
随着越来越多的个体基因组序列被测定,越来越多转座元件多态性插入事件被揭示,这些多态性插入事件的人群频率以及功能也就能被有效评估。同时这种以插入多态性为中心的数据库集成了大量个体中TE的插入事件,从而更好地展示了转座子的多样性。
这类多态性为主的转座元件数据库能够将TE与表型联系起来,并且一些数据库能给出相应插入事件的推测的功能。
其他逆转录转座元件,如Alu, SVA的多态性被存储在NCBI的dbVar中。
D. Challenges and remaining gaps
急需一个完整的人类基因组中TE多态性的资源。虽然现在有了相对比较优秀的关于人类基因组中LINE1插入多态性的数据库(euL1db),但是其他类型的转座元件还是只能通过NCBI的结构变异数据库(dbVar)来进行检索。
在不少癌症当中发现Alu元件的插入多态性与LINE1是具有协同一致性的,因此能有一个包含所有转座元件插入的信息,而不仅仅是某一类型的转座子,可能对于今后真正评估转座元件与发育,疾病发生等各种生物表型的相关性和作用会更有帮助
E. Annotate transposon sequences
不论有无已经组装的基因组,从测序数据当中去找到并注释转座子序列都是可以的。
依赖于参考基因组的注释策略主要有两类:一类是基于数据库进行注释,将测序得到的序列与数据库中已知的TE共有序列以及TE相关的结构域进行比对;另一类是从头注释。不依赖参考基因组的注释策略是使用测序的原始数据进行从头注释,这种类型的注释策略可能可以寻找到信息的TE转座元件类型,并且对于进行新元件的分类也非常有帮助。
多态性TE插入检测和关键事件挖掘工具
不同生物个体基因组中移动元件插入和缺失多态性的检测依赖于已经进行过元件注释的参考基因组的存在。与单核苷酸多态性(SNPs)相似,转座元件多态性通常与不同表型相关,有些多态性事件已被证实与某些疾病的发生相关,如血友病(haemophilia)以及雷氏综合征(Rett syndrome)。现在已经有很多软件开发出来用于鉴定生殖细胞系以及体细胞系的转座元件插入多态性。
用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法
二代测序的一般读长为100-250bp,这对于从属于重复序列的转座元件来说,从短读长的reads中鉴定出它们是一种挑战。
目前针对二代短读长测序产生的数据分析生殖细胞系TE多态性的方法主要有三种:
① 使用split-read(SR)信息,② 依赖于不一致的读取对(discordant read pair, DRP)比对或 ③ 基于TE特定motif的识别。
[图片上传失败...(image-5a980e-1678925849377)]
用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法和生信分析工具
第①种SR的方法能够检测出那些同时包含插入位置的侧翼基因组信息以及转座元件起始或终止序列的reads;
第②种方法主要是通过寻找末端配对的reads和标记实例,其中两个末端彼此远离排列,方向相反或者只有一个读数在参考基因组上对齐。通常来说可以把这两种方法用于检测样本中TE多态性的第一步,其中,由于是直接瞄准转座元件和宿主序列的连接区段进行检测,SR相关的工具可提供更精确的插入位点信息,而DRP相关方法能提供更高的敏感度因为该类方法可以得到更多支持所检测到的插入事件的reads。
因此在实际运用这两类方法去做转座元件鉴定时,通常推荐优先使用DRP相关的生信分析工具得到更多的位点,再通过SR相关的生信分析工具来进一步确定。
鉴定短读长测序reads中germline TE insertion polymorphism的第③种方法是基于TE元件所特有的motif。所谓的“motif”这里可以理解为转座元件的特征序列,例如长末端重复元件(Long Terminal Repeat, LTR)两端的长末端重复序列。不同的转座元件家族进行转座作用所依赖的发生机制有所不同,目前主要有三个常见的特征用作插入事件的监督,它们分别是:插入位点的目标序列重复(target sites duplications, TSDs)的存在;L1介导的逆转录转座作用通过带有3' 多聚腺苷酸尾;3' 转导(3' transduction)。
不同家族的转座元件转座所产生的靶标位点重复序列(target region duplications, TSDs)的长度一般不同。比如一段固定长度的,大约4-6nt之间的TSD,存在于Class I中的长末端重复序列(LTRs)和DNA转座子插入位点,但是DIRS这类元件中没有,或者在长散在重复元件(LINEs)和短散在重复元件(SINEs)的长度非常多样。
TIF以及NGS TE Mapper这两个生信分析工具能够直接检测到那些跨越转座元件末端并且含有了TSDs序列的reads。
通过运用这些工具对短读长二代测序数据进行分析,被测个体与参考基因组相比的多态性的生殖细胞系转座元件插入事件得以检测,同时,通过对群体中每个个体进行独立的鉴别分析,然后将样本集合起来看做一个整体进行多个样本的鉴别(make joint calls)(PS:由于本人还是个生信小白,然后同学说关于如何make call这些可以去看GATK的官网介绍~ )。