基因组文献阅读旨在了解更多物种基因组特征,研究进展,以及了解更多新的分析方法分析思路。这是该系列第一篇文章,阅读更加详细一些,了解框架以后后面文章就只读个大概了。
Tørresen et al. BMC Genomics (2017) 18:95
DOI 10.1186/s12864-016-3448-x
第一版的大西洋鳕鱼基因组(gadMor1)于2011年发表。该基因组组装基于454测序数据,并使用Ensemble Project注释。其基因组大小为832Mbp,其中27%的碱基是gaps,contig N50为2.3kbp,包含17.8%的TEs和5.9%的TRs。
第二版的基因组(gadMor2)组装基于pacbio,illumina,454,Sanger BAC-end测序数据。相较于gadMor1,基因组contigN50长度增加到50倍,gap碱基减少至1/15,显著提升了基因组的组装质量。与其他脊椎动物相比,该组装版本中串联重复(tandem repeats ,TRs)密度更高,TRs在基因组中占比21%,其中19%在启动子区域,12%在编码序列区域。
重复序列分为散在重复序列(interspersed)和串联重复序列(tandem repeats, TRs)。散在重复序列包括转座子原件(transposable elements ,TEs),在基因组中占比555%。TRs是重复单元串联两次以上的序列,在真核基因组中占比0.53%。TRs可分为微随体(简单重复或短串联重复,microsatellites,STRs,串联重复单元为1-9bp),微卫星(小卫星,minisatellites,10-100 bp)及卫星重复(satellite repeats,>100 bp)。TRs通过添加或去除重复单位的方式发生突变,其突变率比基因组的其余部分高10-10,000倍。
原始数据:
∼40x Roche/454
∼0.1x Sanger BAC-ends
∼480x Illumina
∼19x PacBio
转录组组装:
对不同组织及生长阶段的样本分别进行多个平台测序,得到3个版本的转录本。
组装数据 | 组装软件 | 转录本(条) |
---|---|---|
Illumina | Trinity | 59,379 |
454 | Newbler | 79,025 |
PacBio | SMRT-Analysis | 62,392 |
基因组组装:
1. 组装策略:
组装版本 | 组装软件 | 组装数据 |
---|---|---|
NEWB454 | Newbler | 454;Sanger BAC-end |
ALPILM | ALLPATHS-LG | Illumina |
CA454ILM | Celera Assembler | 454;Illumina |
CA454PB | Celera Assembler | 454 paired reads;Illumina;raw, uncorrected PacBio reads |
2. 补洞及提升组装质量:
补洞:PBJelly将PacBio reads 比对到组装版本进行补洞(close gaps)
提升组装质量:Pilon用454 reads,300bp 和5 kbp插入片段文库的Illumina reads纠错
每个组装版本得到4个处理版本:1)未经任何处理的初始组装版本;2)仅PBJelly处理的版本;3)仅Pilon处理的版本;4)PBJelly,Pilon处理的版本。
3. 组装版本的验证及选择:
使用多种方法为4个组装版本选择最佳的处理版本:1)使用REAPR 和FRCbam通过纠错后paired Illumina reads来评估各个处理版本的错误率;2)使用Isoblat检测转录本与各个处理版本的比对情况;3)使用CEGMA,BUSCO评估各个处理版本组装完整度;4)使用blat_parse.py通过linkage map(包含9355个SNP)与不同处理版本的比较,来评估完整度及长距离的正确性。
ALPILM, NEWB454 and CA454PB选择由PBJelly,Pilon都处理的组装版本,CA454ILM选择仅Pilon处理的组装版本。
4. 组装版本合并:
首先在各组装版本中存在分歧的linkage map位置断开序列,并去除小于1000bp的序列;使用Mugsy进行多个版本的比对,得到的“alignment graph structure”横跨CA454ILM(CA454ILM为经BUSCO评估含最多基因的原始版本)的组装路径作为skeleton(骨架);使用ALPILM和NEWB454原始组装版本的比对结果得到含最少gap的CA454PB组装版本作为补充(sequencing contribution assembly);bwa将所有paired reads(Illumina,454和BAC)比对到基因组,使用SGA 的scaffold module合并组装版本,使得scaffold N50从850Kbp增加到了1.15Mbp;最后Pilon提升组装碱基准确性及补洞。Scaffold定位及排序:
基于linkage data,Scaffold被定位到linkage groups,之间用100Ns连接。
基因组大小评估:
SGA PreQC基于Illumina reads(150x)评估基因组大小(kmer1731),评估基因组大小约613 Mbp±11 Mbp;ALLPATHSLG评估基因组大小为651 Mbp。尽管gadMor1有832 Mbp,但是其中有26.9% gaps (224 Mbp in gaps),contigs序列为608 Mbp。
注释:
使用MAKER2进行基因注释,丢掉低质量的注释结果后,还剩23,243个基因。
杂合度:
BWA-MEM将100,300bp 的Illumina paired-end reads比对到gadMor2,并用FreeBayes call snp,得到2,621,997个SNP,计算得出杂合度为4.07 × 10-3;indel rate为0.98 ×10-3;基于PacBio reads,使用blasr和PBHoney call indels,得到70,278 indels(size ≥20 bp), indel rate为0.1 × 10-3 。
重复序列注释:
结合RepeatModeler,LTRharvest,LTRdigest,TransposonPSI以及来自RepBase已知的真核TE序列创建重复序列库,该库masked了31.3%的基因组序列,其中22.9% 是interspersed repeats,8.0%是TRs。
TR:
研究不同测序技术及不同组装软件对注释TR的影响。结果显示,Celera组装得出的TRs更多。该组装版本中dinucleotide TRs是TRs的主要组成部分,占比48.7%;mononucleotide, trinucleotide和Tetranucleotide分别占7.6%, 6.3% ,6.3%。gadMor2与其他基因组(包括gadMor1,California sea hare等)比较,显示gadMor2的TRs密度大约高出其他脊椎动物的3倍。
杂合TRs:
lobSTR可检测杂合TRs(同源染色体相同位置的重复长度不同)。lobSTR注释到980,400 STRs(过滤前1,182,796个),其中47,718个是杂合的。Phobos注释到640,938个TRs(1-6 bp),lobSTR注释到的TRs数目是Phobos结果的2倍。从注释结果TRs的长度分布上看,两者差异较大,即lobSTR鉴定相对较短的STRs,而Phobos注释相对较长的STRs。采用另一种注释方法,使用lobSTR和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最终640,938 STRs (1-6 bp unit size)中检测到145,435 indels;使用Phobos和FreeBayes(使用Illumina reads)或PBHoney(使用PacBio reads)的交集,最终876,691 TRs(1-50 bp unit size)中检测到183,898 indels。表明五分之一的TRs是杂合的。