一、下载短序列
在Genome Announcements网站(https://mra.asm.org/)上任意找一篇细菌基因组文章;记载SRA号:SRR10028728,用prefetch下载该文件
prefetch SRR10028728
结果如下,序列自动保存在ncbi中
二、Fastq-dump解压
fastq-dump --gzip --split-3 SRR10028728.sra
结果如图
三、Fastqc质控,去接头
fastqc SRR10028728_1.fastq.gz
fastqc SRR10028728_2.fastq.gz
结果如图
将质量控制后的结果文件下载下来,并打开查看
SRR10028728_1_fastqc
SRR10028728_2_fastqc
可以看到短序列几乎都位于绿色区域,说明数据质量良好
四、Spades组装基因组草图
~/ncbi/public/sra$ spades.py --only-assembler --phred-offset 33 -k 55 --s1 SRR10028728_1.fastq.gz -o ./SPAdes1
~/ncbi/public/sra$ spades.py --only-assembler --phred-offset 33 -k 55 --s1 SRR10028728_2.fastq.gz -o ./SPAdes2
结果如图
五、Quast评价组装结果
~/Biosofts/quast-5.0.0$ quast.py ~/ncbi/public/sra/SPAdes1/contigs.fasta
~/Biosofts/quast-5.0.0$ quast.py ~/ncbi/public/sra/SPAdes2/contigs.fasta
结果如图
SPAdes1
SPAdes2