Faster SPAdes assembly(shovill)

前言

由于最近要开始做一些基因组的工作,然后老板安利了一个叫shovill的github仓库,主要作用就是加快SPAdes的拼接速度。这里记录一下它主要做的事情,以及benchmark一下加快的效果如何。

shovill简介

Shovill is a pipeline which uses SPAdes at its core, but alters the steps before and after the primary assembly step to get similar results in less time. Shovill also supports other assemblers like SKESA, Velvet and Megahit, so you can take advantage of the pre- and post-processing the Shovill provides with those too
以上是shovill自己的介绍,其中提到了其改变的步骤主要是primary assembly之前与之后的部分,并且也提到了其结果可能会发生一定的变化。

另外,除了以上的主要介绍以外,其中也有一些FAQ的回答,例如:

  1. 不能用于3代测序所产生的长序列测序结果
  2. 只适用于pair end 测序结果
  3. 不能用于metagenomic的结果

shovill主要过程

  1. 获取raw read统计信息(seqtk)
  2. 估计基因组的大小(kmc)
  3. 估计测序深度(1与2的结果的简单计算)
    orig_depth = total_bp / genome_size
    factor = depth / orig_depth default depth: 100
  4. 通过seqtk同时对read1和read2进行subsample original data. **(其理由是Giving an assembler too much data is a bad thing) **
  5. 通过trimmomatic进行trimming(默认是不trim)
  6. 计算Kmer
    default $KMER_READ_FRAC=0.75; maxK=127; minK=31
    maxK = min(maxK, $KMER_READ_FRAC * length of read)1273/4的read长的中选个最小的作为新的maxK
    minK = 21 if avg_read_len < 75 else minK如果平均read长小于75则minK等于21
    number of K = 5 写死。。
    step of K 通过min 和 max计算可得,保持全奇数的结果。
  7. 通过lighter对raw reads进行correct。 (校正测序数据,通过测序深度和预估基因组大小进行校正)
  8. 通过flash对Overlapping/stitcing PE reads进行校正
  9. 开始进行拼接。其中--pe1-1 和--pe1-2 和--s2均由flash产生。
spades.py --pe1-1 flash.notCombined_1.fastq.gz --pe1-2 flash.notCombined_2.fastq.gz --s2 flash.extendedFrags.fastq.gz --only-assembler --threads 16 --memory 100 -o . --tmp-dir /tmp -k 31,51,71,91,111  >> /dev/null 2>&1
  1. 通过Pilon进行拼接后的校正。首先会把r1和r2比对会拼接好的contig上。
    _JAVA_OPTIONS=-Xmx100g pilon --genome contigs.fasta --frags shovill.bam --fix bases --output pilon --threads 16 --changes --mindepth 0.25 >> 80-pilon.log 2>&1pilon的结果会被删除,只保留Count changes per contig
  2. 规整contigs.fa的header。

shovill的评估

对单菌株的全基因组测序数据(total bp:132M,预估genome size:4M,预估测序深度为300x)的测序数据总共耗时7min

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,214评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,307评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,543评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,221评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,224评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,007评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,313评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,956评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,441评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,925评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,018评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,685评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,234评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,240评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,464评论 1 261
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,467评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,762评论 2 345

推荐阅读更多精彩内容

  • 姐姐,好久没有这么晚睡了,下午的一觉,让此时的时光多了些平日里少有的安静。 姐姐,肚子有些凉,用着暖水袋呢,刚给弟...
    姐姐的小狗熊阅读 338评论 0 1
  • 这元旦一过,春节就一天天临近了,尤其是对我这长年在外的人来说,更显得时间像匆忙赶着脚步一样。我出生在寒冬腊月天,也...
    从前慢者阅读 844评论 3 5
  • 不要怨恨别人给你的困难,只能怪自己没能力抵抗、 首次看到这句话的时候,是在OP的微信公众号里面,在几十句话中,瞬间...
    三里有屯阅读 341评论 0 0