基因组组装这块我看的不是很多,尽管也看过一些资料,跟朋友也讨论过。但仍然感觉理解不够深入。索性,自己直接肉眼看看,或许更为实在。
hifiasm 输出结果有哪些?
一般来说,用hifiasm组装基因组,纯合材料用- l0
,非纯系材料,比如我们做园艺果树的,尽量是希望分出来两个单倍型,所以参数-l3
,当然,分出两个单倍型,是默认参数,所以默认可以不设置。
两个模式大体输出结果如下图:
可以看出来,区别在于前者多输出了一个
a_ctg
而后者则多输出了hap1.p_ctg
和hap2.p_ctg
逻辑上,看过文献应该比较容易理解
理解共同的输出文件
r_utg
r 代表 raw,也就是最初组装出来的原始结果。其中 utg 表示 unitig,或理解为初步组装且没有拆分气泡或者冲突的结果。
p_utg
p 代表 primary,基本上是在 raw 的基础上去除掉一些覆盖率低的连接(或叫气泡)。看起来简洁了不少,其实是少了 60000 条边(当然图太大,看不太出区别....不过确实是小了四分之一)
或许高杂合材料里面,覆盖率低的区域,也可能是另一个单倍型区域?用于后续HiC挂载,可能也要考虑进去。在 p_utg 和 p_ctg 上的选择,或需要考量。
p_ctg
p 代表 primary,ctg 代表了拆分结果。
逻辑上 p_ctg 包含了全部单倍型结果(含 hap1 和 hap2)。事实上,这个文件在
l0
和l3
的表现不相同,可以从文件大小看出区别。个人感觉,l0
下 p_ctg 约等于 canu 软件的组装结果;而l3
模式下,p_ctg 比较接近于主要的一套单倍型结果,大体是hap1
和hap2
中表现最好的每个contig的hap的组合。
a_ctg
a 代表 alternative,大体是拆分出来 p_ctg 之后剩下的就放在 alternative。
hap1/hap2 ctg
亦即两个单倍型的拆分结果。
假如有 HiC 数据
结果类似。phased的效果会好很多。