这是一篇学习和对比fastq-dump、pfastq-dump和fasterq-dump这三个工具转换SRA文件到Fastq文件的使用文章
平台背景:
- 16核 32G内存 高IO的1T硬盘的服务器
- Centos7.7
- conda python3.6环境
安装
下载安装SRA Tookit
从https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software,或者下载最新的source code
tar -zxvf sratoolkit.2.10.0-centos_linux64.tar.gz
cd sratoolkit.2.10.0-centos_linux64.tar.gz
mv sratoolkit.2.10.0-centos_linux64.tar.gz sratoolkit #去掉版本号是为了避免因升级而需要修改配置文件
vi ~/.bashrc #用vi/vim编辑器修改bashrc文件
# 写入export PATH="/opt/sratoolkit/bin:$PATH"
source ~/.bashrc #让配置生效
此时便有了fastq-dump和fasterq-dump两个工具
下载安装pfastq-dump
git clone https://github.com/inutano/pfastq-dump
cd pfastq-dump
chmod a+x bin/pfastq-dump
ln -s bin/pfastq-dump /path-to-Sratoolkit/bin
测试
1. fastq-dump
time fastq-dump --split-3 SRR3382386 -O fastq_dump_result &
2. fasterq-dump
3. pfastq-dump
运行:
time for i in SRR*; do pfastq-dump --split-3 --threads 12 -O pfastq_dump_result -s $i ; done