一、下载安装Aspera Connect
Linux系统下的Aspera Connect安装(Windows下的Aspera Connect安装参考)。
查看最新版本的Aspera - High-speed file transfer software - aspera connect https://downloads.asperasoft.com/en/downloads/8?list
mkdir biotools && cd biotools
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz &
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
bash aspera-connect-3.7.4.147727-linux-64.sh #安装
cd # 去根目录
ls -a # 如果看到.aspera文件夹,代表安装成功
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
ascp --help #ok
二、下载sra数据
Aspera用法如下:
ascp [参数] 目标文件 保存路径
-v verbose mode 实时知道程序在干啥
-T 取消加密,否则有时候数据下载不了
-i 提供私钥文件的地址
-l 设置最大传输速度,一般200m到500m,如果不设置,反而速度会比较低,可能有个较低的默认值
-k 断点续传,一般设置为值1
-Q 一般加上它
-P 提供SSH port,端口一般是33001
SRA数据库下载:首先记住,数据的存放地址是
ftp://ftp.sra.ebi.ac.uk/vol1
举例:下载
SRR1577019
文件,首先我需要找到地址,去ftp://ftp.sra.ebi.ac.uk/vol1,一层层寻找,直至找到,ftp://ftp.sra.ebi.ac.uk/vol1/srr/SRR157/009/SRR1577019
一般来说,NCBI的sra文件前面的地址都是一样的~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk,那么写脚本批量下载也就不难了!
ascp -QT -l 500m -P33001 -K1 -i ~/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/vol1/srr/SRR157/009/SRR1577019 /media/yt/Elements/m.sex_RNAseq/data
批量下载SRA文件,ascp命令提供参数--file-list,用于批量下载SRA文件。
建立SRA文件路径列表文件sra_list.txt
/vol1/srr/SRR157/001/SRR1577021
/vol1/srr/SRR157/002/SRR1577022
ascp -T -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -l 200m --mode recv --host ftp-private.ncbi.nlm.nih.gov --user anonftp --file-list ~/sra/sra_list.txt ~/sra/