转座子的注释(包含工具)

转座子序列的注释(工具介绍)

关于TE的信息被编目为三种类型的存储库:以TE为中心(TE-centric),以基因组为中心(genome-centric) 和以多态性为中心(polymorphism-centric)。以TE为中心的存储库收集各类TE家族的共有序列;以基因组为中心的存储库将参考基因组中的所有单个TE元件进行编录;多态性为主的存储库包含不同于参考基因组中的个体独有的插入。

A. TE-centric repositories

这类存储库关注转座元件本身,在这种类型的数据库中,我们能检索到各类转座元件家族,亚家族的共有序列,它们主要被用在基因组中转座元件的分类和注释。

RepBase Update 是目前检索真核生物基因组中各类移动元件/转座元件共有序列集的最常用的数据库之一。这个数据库旨在给出每一类TE家族的共有序列和代表型元件类型。它将转座元件分为三类:DNA转座子,LTR逆转录转座子(Long Terminal Repeat Retrotransposons)和non-LTR逆转录转座子。

Dfam是一个较RepBase更“年轻”的真核生物TE-centric数据库,这个数据库更正式地定义了转座元件,并且将共有序列一样的转座元件形成一个“集合”,利用隐马尔可夫模型(hidden Markov models)来进行多序列比对(multiple sequence alignments)。

B. Genomr-centric repositories

以基因组为中心的TE数据库主要集合了参考基因组上注释的各个转座元件。这类数据库能够展示各物种基因组内以及不同TE家族中包含的转座元件的多样性。

另外,由于能够在完整的参考基因组中进行检索,这种类型的数据库能够提供TE元件本身序列外的“侧翼序列”,从而给出更准确的我们想要检索的TE元件类型,序列以及在参考基因组当中的位置信息。

在研究哺乳动物转座元件时,Dfam数据库是唯一包含以上信息的数据库。同时RepeatMasker也能提供基因组上不同的TE元件的序列以及位置信息通过基因组浏览器。

还有一些数据库是对那些插入到基因组上各基因的编码区的转座元件做汇总,包括TranspoGene, HESAS,以及LINE FUSION GENES

C. Polymorphism-centric repositories

所谓多态性插入事件,即在参考基因组中找不到这个插入但是却在某个或某些特定的个体当中找到了,包括生殖细胞系多态性插入(germline polymorphism insertions)以及体细胞系多态性插入(somatic polymorphism insertion)。

随着越来越多的个体基因组序列被测定,越来越多转座元件多态性插入事件被揭示,这些多态性插入事件的人群频率以及功能也就能被有效评估。同时这种以插入多态性为中心的数据库集成了大量个体中TE的插入事件,从而更好地展示了转座子的多样性。

这类多态性为主的转座元件数据库能够将TE与表型联系起来,并且一些数据库能给出相应插入事件的推测的功能。

其他逆转录转座元件,如Alu, SVA的多态性被存储在NCBI的dbVar中。

D. Challenges and remaining gaps

急需一个完整的人类基因组中TE多态性的资源。虽然现在有了相对比较优秀的关于人类基因组中LINE1插入多态性的数据库(euL1db),但是其他类型的转座元件还是只能通过NCBI的结构变异数据库(dbVar)来进行检索。

在不少癌症当中发现Alu元件的插入多态性与LINE1是具有协同一致性的,因此能有一个包含所有转座元件插入的信息,而不仅仅是某一类型的转座子,可能对于今后真正评估转座元件与发育,疾病发生等各种生物表型的相关性和作用会更有帮助

E. Annotate transposon sequences

不论有无已经组装的基因组,从测序数据当中去找到并注释转座子序列都是可以的。

依赖于参考基因组的注释策略主要有两类:一类是基于数据库进行注释,将测序得到的序列与数据库中已知的TE共有序列以及TE相关的结构域进行比对;另一类是从头注释。不依赖参考基因组的注释策略是使用测序的原始数据进行从头注释,这种类型的注释策略可能可以寻找到信息的TE转座元件类型,并且对于进行新元件的分类也非常有帮助。

多态性TE插入检测和关键事件挖掘工具


image.png

不同生物个体基因组中移动元件插入和缺失多态性的检测依赖于已经进行过元件注释参考基因组的存在。与单核苷酸多态性(SNPs)相似,转座元件多态性通常与不同表型相关,有些多态性事件已被证实与某些疾病的发生相关,如血友病(haemophilia)以及雷氏综合征(Rett syndrome)。现在已经有很多软件开发出来用于鉴定生殖细胞系以及体细胞系的转座元件插入多态性。

用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法

二代测序的一般读长为100-250bp,这对于从属于重复序列的转座元件来说,从短读长的reads中鉴定出它们是一种挑战。

目前针对二代短读长测序产生的数据分析生殖细胞系TE多态性的方法主要有三种:

① 使用split-read(SR)信息,② 依赖于不一致的读取对(discordant read pair, DRP)比对或 ③ 基于TE特定motif的识别。

[图片上传失败...(image-5a980e-1678925849377)]

用于检测生殖细胞系TE多态性(germline TE insertion polymorphisms)的短读长方法和生信分析工具

第①种SR的方法能够检测出那些同时包含插入位置的侧翼基因组信息以及转座元件起始或终止序列的reads;

第②种方法主要是通过寻找末端配对的reads和标记实例,其中两个末端彼此远离排列,方向相反或者只有一个读数在参考基因组上对齐。通常来说可以把这两种方法用于检测样本中TE多态性的第一步,其中,由于是直接瞄准转座元件和宿主序列的连接区段进行检测,SR相关的工具可提供更精确的插入位点信息,而DRP相关方法能提供更高的敏感度因为该类方法可以得到更多支持所检测到的插入事件的reads。

因此在实际运用这两类方法去做转座元件鉴定时,通常推荐优先使用DRP相关的生信分析工具得到更多的位点,再通过SR相关的生信分析工具来进一步确定

鉴定短读长测序reads中germline TE insertion polymorphism的第③种方法是基于TE元件所特有的motif。所谓的“motif”这里可以理解为转座元件的特征序列,例如长末端重复元件(Long Terminal Repeat, LTR)两端的长末端重复序列。不同的转座元件家族进行转座作用所依赖的发生机制有所不同,目前主要有三个常见的特征用作插入事件的监督,它们分别是:插入位点的目标序列重复(target sites duplications, TSDs)的存在;L1介导的逆转录转座作用通过带有3' 多聚腺苷酸尾;3' 转导(3' transduction)。

不同家族的转座元件转座所产生的靶标位点重复序列(target region duplications, TSDs)的长度一般不同。比如一段固定长度的,大约4-6nt之间的TSD,存在于Class I中的长末端重复序列(LTRs)和DNA转座子插入位点,但是DIRS这类元件中没有,或者在长散在重复元件(LINEs)和短散在重复元件(SINEs)的长度非常多样。

TIF以及NGS TE Mapper这两个生信分析工具能够直接检测到那些跨越转座元件末端并且含有了TSDs序列的reads。

通过运用这些工具对短读长二代测序数据进行分析,被测个体与参考基因组相比的多态性的生殖细胞系转座元件插入事件得以检测,同时,通过对群体中每个个体进行独立的鉴别分析,然后将样本集合起来看做一个整体进行多个样本的鉴别(make joint calls)(PS:由于本人还是个生信小白,然后同学说关于如何make call这些可以去看GATK的官网介绍~ )。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容