写在前面
最近,带一个师妹了解并做了简单的基因组组装工作,感觉其上手速度还可以。慢慢地有初窥生物信息学数据分析门径的样式,于是....还是鼓励她整理整理流程,分享分享(其实....主要还是公众号明显有断更的趋势,赶紧补血....),与大伙共同学习。流程整理如下。
获取并上传测序数据
样品交付于公司后,公司开展Pacbio常规基因组建库测序,返回三个文件:
- bam
- bai
- xml
其中 BAM 文件保存的去除接头之后,所有subreads(来自同一个ZMW的reads在文件中连续排布)。使用 xftp 或 winscp 上传数据到服务器。
Pacbio的 BAM 文件转换为 Fastq/a 文件
计划使用 flye 软件进行组装。如果是 hifi 测序,我们可以直接使用 bam 文件。对于常规建库(其实也就是普通ccs),那么需要先转换为 fastq 或者 fasta 文件。使用Pacbio 官方的 bam2fastx
软件。
**安装 bam2fastx **
conda config --add channels defaults
conda config --add channels bioconda
conda config --add channels conda-forge
conda install bam2fastx
bam文件转换为fasta格式
bam2fasta -o out.subreads.fasta in.subreads.bam
使用 flye 组装基因组
由于运行时间较长,我们使用 tmux 软件,防止掉线。
tmux new -s assembly
安装 flye 软件
conda install flye
开始组装,使用 4 个线程
cd /home/qi_zheng/PacbioGenomeAssembly
flye --pacbio-raw out.subreads.fasta --out-dir flye_ressembly_results --threads 4
查看组装结果
ls -ahl flye_ressembly_results
评估组装结果
下载Quast软件(Python软件,无需安装)
cd ~
wget -c https://github.com/ablab/quast/releases/download/quast_5.1.0rc1/quast-5.1.0rc1.tar.gz
tar -zxvf quast-5.1.0rc1.tar.gz
对组装结果进行评估
python /home/qi_zheng/quast-5.1.0rc1/quast.py assembly.fasta -t 10 -o quast_evalucation_results
查看评估结果
cd quast_evalucation_results
ls -ahl
生成
report.html
文件,在浏览器上打开,即可查看评估结果html 文件中存在可交互元素,可以详细查看具体组装信息。
写在最后
整体上,仅仅是上述简单的操作。我个人觉得组装效果还挺不错,起码组装出约等于预期染色体数目的长度够大的contigs。详细还是需要做进一步分析,如与近源物种比较,才能更好确定是否有具体组装问题。当然,我对这个结果充满信心。