Sergey Koren和Adam Phillippy提出了一种“trio binning”组装策略组装人的基因组单倍型。两位大神参与了多个组装软件项目:
MashMap: A fast and approximate long read mapper
Canu:A single molecule sequence assembler for genomes large and small
Mash: Fast genome and metagenome distance and containment estimation using MinHash
MHAP: A probabilistic sequence overlap algorithm
还在bioRxiv上发表了一系列优秀文章:
RefSeq database growth influences the accuracy of k-mer-based species identification
Complete assembly of parental haplotypes with trio binning
Integrating Hi-C links with assembly graphs for chromosome-scale assembly
A fast adaptive algorithm for computing whole-genome homology maps
作者使用Oxford Nanopore MinION作者人的基因组(GM12878),使用“trio-based”组装策略组装单倍型。Nanopore持续推进,有一些重大提升,如一些工具Nanopolish ,速度更加快速且增加了一些新的功能。因此作者使用原先自己发现的文献数据,用最新的工具再次base call和组装。新的组装版本提升了NG50,trio binning准确的重建了两个单倍型的MHC基因。
作者使用 Albacore v2.1 其call raw data,覆盖了从37升至41x,reads平均长度从7.3提升至8.1kbp。Canu 1.6组装提升NG50至10.2 Mbp(150k cpu小时)。作者使用Canu 1.7对reads纠错,并使用WTDBG 进行组装,组装结果NG50为12.4 Mbp,WTDBG仅需30k cpu小时。
使用Canu + WTDBG的策略比单独使用Miniasm 或单独使用WTDBG要好,可能原因是Canu纠错后的结果更利于组装。
评估 Canu + WTDBG的组装准确性为98.94%,比之前文章报道的95.94%高。经过Nanopolish 两轮“CpG甲基化”修正后,准确性达到了99.76%,而 deletion bias和short indels的比例较突出,作者随后旨在对其进行改进。
由于GM12878有亲代的数据可用,作者试着用刚发表的trio binning方法(Koren et al. 2018)组装。在组装前,使用TrioCanu对GM12878的nanopore reads分为母本和父本单倍型bins,两轮CpG Nanopolish后,两种单倍体的识别率均为99.24%。
作者将两种nanopore的单倍体排列成一种结构变体,并将这些结果与PacBio的分析结果进行比较。在nanopore的组装结果中有更高比例的short indels。
尝试使用双亲Illumina数据在每个nanopore单倍型上运行Pilon实际上降低了质量,并在几个MHC基因中引入了额外的错误。然而,将Pilon限制为仅修正inels确实修正了所有类型基因的错误,最终的一致性准确率为99.92%。
作者组装的方法发表在Jain et al. 2017 ,trio binning 的方法在 Koren et al. 2018