一、简介:
SRA Toolkit是将ncbi上 .sra文件
(文献中的各种数据,如:Chip、Rna-seq等一般都以sra格式储存在ncbi数据库中https://www.ncbi.nlm.nih.gov/sra/)
下载并转换为 .fstaq.gz文件的工具。
二、软件的下载及环境变量的配置:
下载:wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
解压:tar -xvzf sratoolkit.2.9.2-ubuntu64.tar.gz
检查:ls sratoolkit.2.9.2-ubuntu64/bin (看到各种软件则可)
配置环境变量(根据个人情况不同,略有差异):
(1)vi ~/.bashrc (2)export PATH=$PATH:/public/home/zffang/software/sratoolkit.2.9.2-ubuntu64/bin
(3)source ~/.bashrc (使配置生效)
三、文献数据的下载
1.将文献的SRA accession numbers输入“一”中网址search,就会得到具体的数据信息和SRR编号。
2.prefetch SRR----
3.得到的数据的.sra文件会自动生成路径:--/ncbi/public/sra
四、格式的转化
1.确定数据的测序类型:单端或双端
2.对于双端测序,.sra文件中包含了两条reads的序列信息,所以要将它们拆分开。
使用fastq-dump拆分PE文件时有两种常用的参数,--split-files 和--split-3 (具体的差异还没有搞清楚,本次用的是-3),最好在该
参数后面加-gzip则会自动生成.gz文件,以节约内存空间。
对于单端测序自然就不用拆分。