【基因组——大西洋鳕鱼】大西洋鳕鱼(Atlantic cod;Gadus morhua)重测序并揭露其TRs特征

基因组文献阅读旨在了解更多物种基因组特征,研究进展,以及了解更多新的分析方法分析思路。这是该系列第一篇文章,阅读更加详细一些,了解框架以后后面文章就只读个大概了。


Tørresen et al. BMC Genomics (2017) 18:95
DOI 10.1186/s12864-016-3448-x


第一版的大西洋鳕鱼基因组(gadMor1)于2011年发表。该基因组组装基于454测序数据,并使用Ensemble Project注释。其基因组大小为832Mbp,其中27%的碱基是gaps,contig N50为2.3kbp,包含17.8%的TEs和5.9%的TRs。
第二版的基因组(gadMor2)组装基于pacbio,illumina,454,Sanger BAC-end测序数据。相较于gadMor1,基因组contigN50长度增加到50倍,gap碱基减少至1/15,显著提升了基因组的组装质量。与其他脊椎动物相比,该组装版本中串联重复(tandem repeats ,TRs)密度更高,TRs在基因组中占比21%,其中19%在启动子区域,12%在编码序列区域。

重复序列分为散在重复序列(interspersed)和串联重复序列(tandem repeats, TRs)。散在重复序列包括转座子原件(transposable elements ,TEs),在基因组中占比555%。TRs是重复单元串联两次以上的序列,在真核基因组中占比0.53%。TRs可分为微随体(简单重复或短串联重复,microsatellites,STRs,串联重复单元为1-9bp),微卫星(小卫星,minisatellites,10-100 bp)及卫星重复(satellite repeats,>100 bp)。TRs通过添加或去除重复单位的方式发生突变,其突变率比基因组的其余部分高10-10,000倍。

原始数据:
∼40x Roche/454
∼0.1x Sanger BAC-ends
∼480x Illumina
∼19x PacBio

转录组组装:
对不同组织及生长阶段的样本分别进行多个平台测序,得到3个版本的转录本。

组装数据 组装软件 转录本(条)
Illumina Trinity 59,379
454 Newbler 79,025
PacBio SMRT-Analysis 62,392

基因组组装:
1. 组装策略:

组装版本 组装软件 组装数据
NEWB454 Newbler 454;Sanger BAC-end
ALPILM ALLPATHS-LG Illumina
CA454ILM Celera Assembler 454;Illumina
CA454PB Celera Assembler 454 paired reads;Illumina;raw, uncorrected PacBio reads

2. 补洞及提升组装质量:

补洞:PBJelly将PacBio reads 比对到组装版本进行补洞(close gaps)

提升组装质量:Pilon用454 reads,300bp 和5 kbp插入片段文库的Illumina reads纠错

每个组装版本得到4个处理版本:1)未经任何处理的初始组装版本;2)仅PBJelly处理的版本;3)仅Pilon处理的版本;4)PBJelly,Pilon处理的版本。

3. 组装版本的验证及选择:
使用多种方法为4个组装版本选择最佳的处理版本:1)使用REAPR 和FRCbam通过纠错后paired Illumina reads来评估各个处理版本的错误率;2)使用Isoblat检测转录本与各个处理版本的比对情况;3)使用CEGMA,BUSCO评估各个处理版本组装完整度;4)使用blat_parse.py通过linkage map(包含9355个SNP)与不同处理版本的比较,来评估完整度及长距离的正确性。
ALPILM, NEWB454 and CA454PB选择由PBJelly,Pilon都处理的组装版本,CA454ILM选择仅Pilon处理的组装版本。

4. 组装版本合并:
首先在各组装版本中存在分歧的linkage map位置断开序列,并去除小于1000bp的序列;使用Mugsy进行多个版本的比对,得到的“alignment graph structure”横跨CA454ILM(CA454ILM为经BUSCO评估含最多基因的原始版本)的组装路径作为skeleton(骨架);使用ALPILM和NEWB454原始组装版本的比对结果得到含最少gap的CA454PB组装版本作为补充(sequencing contribution assembly);bwa将所有paired reads(Illumina,454和BAC)比对到基因组,使用SGA 的scaffold module合并组装版本,使得scaffold N50从850Kbp增加到了1.15Mbp;最后Pilon提升组装碱基准确性及补洞。Scaffold定位及排序:
基于linkage data,Scaffold被定位到linkage groups,之间用100Ns连接。

image.png

基因组大小评估:
SGA PreQC基于Illumina reads(150x)评估基因组大小(kmer1731),评估基因组大小约613 Mbp±11 Mbp;ALLPATHSLG评估基因组大小为651 Mbp。尽管gadMor1有832 Mbp,但是其中有26.9% gaps (224 Mbp in gaps),contigs序列为608 Mbp。

注释:
使用MAKER2进行基因注释,丢掉低质量的注释结果后,还剩23,243个基因。

杂合度:
BWA-MEM将100,300bp 的Illumina paired-end reads比对到gadMor2,并用FreeBayes call snp,得到2,621,997个SNP,计算得出杂合度为4.07 × 10-3;indel rate为0.98 ×10-3;基于PacBio reads,使用blasr和PBHoney call indels,得到70,278 indels(size ≥20 bp), indel rate为0.1 × 10-3 。

重复序列注释:
结合RepeatModeler,LTRharvest,LTRdigest,TransposonPSI以及来自RepBase已知的真核TE序列创建重复序列库,该库masked了31.3%的基因组序列,其中22.9% 是interspersed repeats,8.0%是TRs。

TR:
研究不同测序技术及不同组装软件对注释TR的影响。结果显示,Celera组装得出的TRs更多。该组装版本中dinucleotide TRs是TRs的主要组成部分,占比48.7%;mononucleotide, trinucleotide和Tetranucleotide分别占7.6%, 6.3% ,6.3%。gadMor2与其他基因组(包括gadMor1,California sea hare等)比较,显示gadMor2的TRs密度大约高出其他脊椎动物的3倍。

杂合TRs:
lobSTR可检测杂合TRs(同源染色体相同位置的重复长度不同)。lobSTR注释到980,400 STRs(过滤前1,182,796个),其中47,718个是杂合的。Phobos注释到640,938个TRs(1-6 bp),lobSTR注释到的TRs数目是Phobos结果的2倍。从注释结果TRs的长度分布上看,两者差异较大,即lobSTR鉴定相对较短的STRs,而Phobos注释相对较长的STRs。采用另一种注释方法,使用lobSTR和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最终640,938 STRs (1-6 bp unit size)中检测到145,435 indels;使用Phobos和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最终876,691 TRs(1-50 bp unit size)中检测到183,898 indels。表明五分之一的TRs是杂合的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,723评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,485评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,998评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,323评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,355评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,079评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,389评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,019评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,519评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,971评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,100评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,738评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,293评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,289评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,517评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,547评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,834评论 2 345

推荐阅读更多精彩内容