【基因组——大西洋鳕鱼】大西洋鳕鱼（Atlantic cod；Gadus morhua）重测序并揭露其TRs特征

基因组文献阅读旨在了解更多物种基因组特征，研究进展，以及了解更多新的分析方法分析思路。这是该系列第一篇文章，阅读更加详细一些，了解框架以后后面文章就只读个大概了。

Tørresen et al. BMC Genomics (2017) 18:95
DOI 10.1186/s12864-016-3448-x

第一版的大西洋鳕鱼基因组（gadMor1）于2011年发表。该基因组组装基于454测序数据，并使用Ensemble Project注释。其基因组大小为832Mbp，其中27%的碱基是gaps，contig N50为2.3kbp，包含17.8%的TEs和5.9%的TRs。
第二版的基因组（gadMor2）组装基于pacbio,illumina,454，Sanger BAC-end测序数据。相较于gadMor1，基因组contigN50长度增加到50倍，gap碱基减少至1/15，显著提升了基因组的组装质量。与其他脊椎动物相比，该组装版本中串联重复（tandem repeats ,TRs）密度更高，TRs在基因组中占比21%，其中19%在启动子区域，12%在编码序列区域。

重复序列分为散在重复序列(interspersed)和串联重复序列(tandem repeats, TRs)。散在重复序列包括转座子原件（transposable elements ,TEs）,在基因组中占比5_{55%。TRs是重复单元串联两次以上的序列，在真核基因组中占比0.5}3%。TRs可分为微随体（简单重复或短串联重复，microsatellites，STRs，串联重复单元为1-9bp），微卫星（小卫星，minisatellites，10-100 bp）及卫星重复（satellite repeats，>100 bp）。TRs通过添加或去除重复单位的方式发生突变，其突变率比基因组的其余部分高10-10,000倍。

原始数据：
∼40x Roche/454
∼0.1x Sanger BAC-ends
∼480x Illumina
∼19x PacBio

转录组组装：
对不同组织及生长阶段的样本分别进行多个平台测序，得到3个版本的转录本。

组装数据	组装软件	转录本（条）
Illumina	Trinity	59,379
454	Newbler	79,025
PacBio	SMRT-Analysis	62,392

基因组组装：
1. 组装策略：

组装版本	组装软件	组装数据
NEWB454	Newbler	454；Sanger BAC-end
ALPILM	ALLPATHS-LG	Illumina
CA454ILM	Celera Assembler	454；Illumina
CA454PB	Celera Assembler	454 paired reads；Illumina；raw, uncorrected PacBio reads

2. 补洞及提升组装质量：

补洞：PBJelly将PacBio reads 比对到组装版本进行补洞（close gaps）

提升组装质量：Pilon用454 reads，300bp 和5 kbp插入片段文库的Illumina reads纠错

每个组装版本得到4个处理版本：1）未经任何处理的初始组装版本；2）仅PBJelly处理的版本；3）仅Pilon处理的版本；4）PBJelly，Pilon处理的版本。

3. 组装版本的验证及选择：
使用多种方法为4个组装版本选择最佳的处理版本：1）使用REAPR 和FRCbam通过纠错后paired Illumina reads来评估各个处理版本的错误率；2）使用Isoblat检测转录本与各个处理版本的比对情况；3）使用CEGMA，BUSCO评估各个处理版本组装完整度；4）使用blat_parse.py通过linkage map（包含9355个SNP）与不同处理版本的比较，来评估完整度及长距离的正确性。
ALPILM, NEWB454 and CA454PB选择由PBJelly，Pilon都处理的组装版本，CA454ILM选择仅Pilon处理的组装版本。

4. 组装版本合并：
首先在各组装版本中存在分歧的linkage map位置断开序列，并去除小于1000bp的序列；使用Mugsy进行多个版本的比对，得到的“alignment graph structure”横跨CA454ILM（CA454ILM为经BUSCO评估含最多基因的原始版本）的组装路径作为skeleton(骨架)；使用ALPILM和NEWB454原始组装版本的比对结果得到含最少gap的CA454PB组装版本作为补充（sequencing contribution assembly）；bwa将所有paired reads（Illumina，454和BAC）比对到基因组，使用SGA 的scaffold module合并组装版本，使得scaffold N50从850Kbp增加到了1.15Mbp；最后Pilon提升组装碱基准确性及补洞。Scaffold定位及排序：
基于linkage data，Scaffold被定位到linkage groups，之间用100Ns连接。

image.png

基因组大小评估：
SGA PreQC基于Illumina reads（_{150x）评估基因组大小（kmer17}31），评估基因组大小约613 Mbp±11 Mbp；ALLPATHSLG评估基因组大小为651 Mbp。尽管gadMor1有832 Mbp，但是其中有26.9% gaps (224 Mbp in gaps)，contigs序列为608 Mbp。

注释：
使用MAKER2进行基因注释，丢掉低质量的注释结果后，还剩23,243个基因。

杂合度：
BWA-MEM将100，300bp 的Illumina paired-end reads比对到gadMor2，并用FreeBayes call snp，得到2,621,997个SNP，计算得出杂合度为4.07 × 10-3；indel rate为0.98 ×10-3；基于PacBio reads，使用blasr和PBHoney call indels，得到70,278 indels（size ≥20 bp）, indel rate为0.1 × 10-3 。

重复序列注释：
结合RepeatModeler，LTRharvest，LTRdigest，TransposonPSI以及来自RepBase已知的真核TE序列创建重复序列库，该库masked了31.3%的基因组序列，其中22.9% 是interspersed repeats，8.0%是TRs。

TR：
研究不同测序技术及不同组装软件对注释TR的影响。结果显示，Celera组装得出的TRs更多。该组装版本中dinucleotide TRs是TRs的主要组成部分，占比48.7%；mononucleotide, trinucleotide和Tetranucleotide分别占7.6%, 6.3% ,6.3%。gadMor2与其他基因组（包括gadMor1，California sea hare等）比较，显示gadMor2的TRs密度大约高出其他脊椎动物的3倍。

杂合TRs：
lobSTR可检测杂合TRs（同源染色体相同位置的重复长度不同）。lobSTR注释到980,400 STRs（过滤前1,182,796个），其中47,718个是杂合的。Phobos注释到640,938个TRs（1-6 bp），lobSTR注释到的TRs数目是Phobos结果的2倍。从注释结果TRs的长度分布上看，两者差异较大，即lobSTR鉴定相对较短的STRs，而Phobos注释相对较长的STRs。采用另一种注释方法，使用lobSTR和FreeBayes（使用Illumina reads）或PBHoney（使用PacBio reads）的交集，最终640,938 STRs (1-6 bp unit size)中检测到145,435 indels；使用Phobos和FreeBayes（使用Illumina reads）或PBHoney（使用PacBio reads）的交集，最终876,691 TRs（1-50 bp unit size）中检测到183,898 indels。表明五分之一的TRs是杂合的。

最后编辑于：2018.08.01 21:59:12

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,723评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,485评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,998评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,323评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,355评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,079评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,389评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,019评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,519评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,971评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,100评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,738评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,293评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,289评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,517评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,547评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,834评论 2赞 345

【基因组——大西洋鳕鱼】大西洋鳕鱼（Atlantic cod；Gadus morhua）重测序并揭露其TRs特征

推荐阅读更多精彩内容