首先,本人使用的是华中农业大学的集群;作业的提交可以使用lsf或bsub -J hifiasm -n 10 -R span[hosts=1] -o %J.out -e %J.err -q smp "运行脚本" 两种方式;
参考的朋友需根据自己的合理调整提交方式,但是作业的代码无须大改。如有错误,恳请指出,谢谢。
Hifiasm组装基因组
1. 使用软件及快捷安装方式:
Hifiasm、SAMtools和BEDtools安装:推荐Conda安装,具体步骤可按照conda或各软件的主页安装即可。
2. 数据准备
常用的是三代Pacbio的HIFI数据(近几年的常用数据)
3. 组装工作数据准备
bam数据转化成fq数据:samtools或bedtools;软件的使用细节参照各自的官网了解。
bsub -J hifiasm -n 10 -R span[hosts=1] -o %J.out -e %J.err -q smp "samtools bam2fq input.bam > output.fastq"
或
bsub -J hifiasm -n 10 -R span[hosts=1] -o %J.out -e %J.err -q smp "bedtools bamtofastq -i input.bam -fq output.fq"
"注意:上述方法得到的fq文件大小不一致;根据自己需求选择;本人三代hifi数据,使用samtools转化。
4. hifiasm运行组装基因组
参数选择可参考知乎作者:
强强学生信(https://zhuanlan.zhihu.com/p/567999880)
本研究泥鳅二倍体基因组故选择参数为“-l 2 -n 4” 也可以默认参数(推荐默认参数跑一下试试):
bsub -J hifiasm -n 20 -R span[hosts=1] -o %J.out -e %J.err -q normal "hifiasm -o genome -t 16 -l 2 -n 4 HiFi.fq"
或
bsub -J hifiasm -n 20 -R span[hosts=1] -o %J.out -e %J.err -q normal "hifiasm -o genome -t 16 HiFi.fq"
-o代表输出的前缀;自己定义即可。
-t代表线程数根据自己的电脑或服务器配置设置。
最终输出的就是我们需要的基因组结果;然后再结合Hi-C数据挂载至染色体水平即可。
值得注意的是,近年来,HiFi数据和Hi-C数据结合拆分组装单倍型成为热点。。。
后面会更新借助hifiasm拆分二倍体基因组单倍型的具体干货。。。。