一、面对原始数据该干什么
下载的文件是这样的,这是.sra文件,需要对他们解压
需要使用fastq-dump解压,而使用fastq-dump需下载SRA-Toolkit。
二、SRA-Toolkit
这个需要下载SRA-Toolkit,那么可以点击以下链接进入官网下载:
01. Downloading SRA Toolkit · ncbi/sra-tools Wiki · GitHub
服务器用户下载第一个:CentOS的,可在服务器中直接复制这个代码:
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.1.0/sratoolkit.3.1.0-centos_linux64.tar.gz
客户端的下载第二个:Ubuntu的,可直接点击这个链接下载:Ubuntu Linux 64 bit architecture
在base文件夹中解压:
tar zxvf sratoolkit.3.1.0-centos_linux64.tar.gz
进入到解压后的文件夹中
# 加入环境路径
echo 'export export PATH=$PATH:/home3/yangx/sratoolkit.3.1.0-centos_linux64/bin' >> ~/.bashr
source ~/.bashrc
查询版本,并验证是否装好:
prefetch -V
#prefetch : 3.1.0
SRA-Toolkit下载好之后也可以直接输入sra文件号进行下载(下载好后会存在一个文件夹里,且只有一个文件):
prefetch SRR8956151 &
当用bash文件批量下载时,可以将前台终止,而任务中本身加了&,所以不会被终止,依然会在后台完成下载
三、正式开始解压:
我用的都是对于双端测序的数据,以下都是基于双端测序展开
解压单个文件:fastq-dump --split-3 SRR12345678 &
单线程自动解压:fastq-dump --split-3 *.sra
多线程全自动解压:建立一个bash文件解决
vi fastq.sh #建立bash文件
i #进入编辑模式
#输入你的文件名
fastq-dump --split-3 SRR12345678 &
fastq-dump --split-3 SRR12345679 &
……
#输入完后点击Esc键,输入 :wq 保存文件并退出
bash fastq.sh &
正式文件是很大的,如果上面添加了很多待解压文件,会更慢,耐心等,往往40min起步
或者换个参数:
fastq-dump --split-files SRR12345678 &
#两种区别是对重复文件的处理,--split-3是将那些放到一个文件里,--split-files是丢弃
解压完之后得到了很多fastq文件,在正式分析之前,还需要将其压缩成gz文件
四、压缩成gz文件
gzip *.fastq & #单线程自动解压,费时间
#利用bash文件多线程全自动解压,方法如上
到此获得了从下载的sra原始文件到用于分析的gz文件
五、数据完整性检测
利用md5值:
md5sum *.gz > md5.txt # 建立md5值
md5sum -c md5.txt #与随数据一同被发过来时的summary.md5比对
如果数据没问题,则显示 OK
后面,就可以进行数据预处理了。
(自己学习的笔记,欢迎讨论和指教,转载请注明出处)