1、下载SRA文件
以SRR11951410为例,从SRA数据库上用prefetch下载sra文件:
prefetch SRR11951410
2、Fastq-dump解压
cd SRR11951410/
fastq-dump --gzip --split-files SRR11951410.sra
3、Fastqc质控
fastqc SRR11951410_1.fastq.gz
fastqc SRR11951410_2.fastq.gz
FastQC报告
打开:SRR6466501_1_fastqc.html、SRR6466501_2_fastqc.html
4、Trimmomatic去接头
Trimmomatic 是一个广受欢迎的Ilumina平台数据过滤工具。
处理数据速度快,主要用来去除Illumina 平台的Fastq序列中的接头,并根据碱基质量值对Fastq进行修剪。
支持多线程,有两种过滤模式,分别对应SE和PE测序数据。
java -jar Biosofts/Trimmomatic-0.38/trimmomatic-0.38.jar Pforward_unpaired.fq.gz ./output_reverse_paired.fq.gz ./output_reverse_unpaired.fq.gz ILLUTRAILING:20 MINLEN:75
5、SPAdes组装基因组草图
SPAdes:
➢由俄罗斯科学院圣彼得堡理工大学计算生物学实验室开发,是目前评价最好的拼接工具之一。
➢主要用于基因组拼接,也可用于一、二、三代测序的混合组装;还可用于转录组从头组装(rnaSPAdes)和宏基因组拼接(metaSPAdes) 。
spades.py --careful --pe1-1 SRR11951410_1.fastq.gz --pe1-2 SRR11951410_2.fastq.gz -o ./SPAdesout_SRR11951410
报错:Not enough memory to run BayesHammer,内存不足。
解决:尝试使用seqtk抽取100000条。
(1)解压
gunzip -c output_forward_paired.fq.gz >output_forward_paired.fq
gunzip -c output_reverse_paired.fq.gz >output_reverse_paired.fq
(2)抽取100000条
seqtk sample -s 60 output_forward_paired.fq 100000 >seqtksample1_new.fq
seqtk sample -s 60 output_reverse_paired.fq 100000 >seqtksample2_new.fq
(3)用wc查看,可对比前后文件,判断是否抽取成功
wc -l output_forward_paired.fq
wc -l seqtksample1_new.fq
(4)然后,再次尝试SPAdes运行:
spades.py --careful --pe1-1 seqtksample1_new.fq --pe1-2 seqtksample2_new.fq -o ./SPAdesout.SRR11951410
6、Quast评价组装的基因组效果
对Spades结果进行评价:
quast.py SPAdesout.SRR11951410/contigs.fasta -o SPAdesout.SRR11951410/quast_out
查看输出的文件夹quast_out:
最后本地下载quast报告 report.html,并查看: