「BioNano系列」光学图谱混合组装应该怎么做? 简单的介绍了混合组装的整体步骤,这一篇具体介绍它是如何生成hybrid scaffold表征的AGP和FASTA文件
MergeNGS_BN.pl
的输出结果是/MergeNGS_BN/step2.hybrid.cmap
,之后RefAligner将conflict-resolved 序列和Bionano map比对到Hybrid scaffolds,方便检查NGS和BNG对hybrid scaffold的贡献。
这一步输出结果在align_final
文件夹下,分为xmap, _r.cmap 和_q.cmp文件,可以在BioNano Access上可视化。
后续的scaffold构建就依赖于物理图谱和光学图谱回帖到hybrid scaffold的联配结果。
第一步,根据光学图谱,物理图谱和混合图谱的比对结果,构建AGP文件。
主要目标是从混合图谱中对原始序列进行拼接, 需要考虑3种情况
- 混合图谱中两翼无序列覆盖区
- 混合图谱中中间无序列覆盖区
- 一个区域有多个序列覆盖
为了和NCBI的AGP兼容,第一种情况的处理方法就是将混合图谱中两翼无序列覆盖区直接删除,保证其实序列不是N。
第二种情况的解决方案就是用N进行填充。其中N的数目来自于光学图谱和物理图谱距离比例换算,但是最低不低于固定值G, 默认G是13.
第三种情况下,会采用覆盖同一个区域中多条序列中最长的那条
第二步: 基于AGP文件信息,BioNano的Hybrid Scaffold流程对原始序列进行拼接。最终产生2类FASTA文件,一类是未被用于混合组装的序列,文件命名里包含NOT_SCAFFOLD
,另一类是由基因组序列和代表未知区域的N组成。每一类文件还会有额外的NCBI版本,也就是未知区域只能用N表示。
最终在agp_fasta目录下有下面这些文件, 不同项目的文件名或许有些不同,但差异不会太大
athaliana_BSPQ1_0kb_0labels_key.txt.cut.txt
athaliana.fasta.cut.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.agp
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.gap
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NCBI.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NOT_SCAFFOLDED.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_trimHeadTailGap.coord
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.xmap_sorted.xmap
xmap2agp.errlog
xmap2agp.log
对于scaffold中的gap,可以用一些补洞软件,例如PBjelly进行 gap filling
举例说明
以下是AGP文件中其中一条scaffold的搭建情况
Super-Scaffold_9 1 2266237 1 W ctg19_subseq_289397:2555633 1 2266237 -
Super-Scaffold_9 2266238 2266250 2 N 13 scaffold yes map
Super-Scaffold_9 2266251 2556219 3 W ctg165 1 289969 -
Super-Scaffold_9 2556220 2556232 4 N 13 scaffold yes map
Super-Scaffold_9 2556233 2873797 5 W ctg149 1 317565 -
Super-Scaffold_9 2873798 2873810 6 N 13 scaffold yes map
Super-Scaffold_9 2873811 11480417 7 W ctg9 1 8606607 -
在BioNano access对应的内容如下
对于开头区域,虽然有很多NGS的contig比对到同一个区域,但是只会选择其中最长的那条,其他则都可以当做haplotype。
之后就需要接上另外一条contig。虽然从图中我们可以发现,这两条contig其实存在一部分的重叠,最好的策略是将删掉其中一部分,避免冗余,但是Solve的做法其实是在两个contig中加入13个N。
其结果就是,导致该区域用重测序比对时出现多比对,影响后续转录组预测
后续的组装BioNano 出现了一个明显错误的操作,显然1后面应该直接接2,如果是这样子处理,那么AGP文件中的记录就应该只出现2处N记录,但实际上却有三处,这说明BioNano实际的连接策略是1->3->2, 那么结果里在这里就会出现一处大规模的冗余
我将二代测序的重测序和转录组测序进行回帖,对该区域进行检查
同样造成了多序列的比对,以及转录组错误组装
解决方法: 不知道,和BioNano公司讨论中。我目前就采用手工解决冲突的方法了。