通过linux服务器终端下载转录组测序文件的方式有很多,不同数据库可能需要执行不同的下载代码,我在这简单梳理一下。(因为刚接触linux系统,肯定会存在纰漏,敬请指正!)
1.NCBI数据库
我首先尝试的是
wget https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR11955376/SRR11955376
然而,这种方式下载速度非常慢。上网查询后发现很多人推荐使用sratoolkit来下载NCBI上的sra文件(下载链接:https://www.ncbi.nlm.nih.gov/home/tools/)
下载安装sratoolkit后输入:
prefetch SRP133642
可直接下载目标文件
注:很多帖子说可以用prefetch+aspera的方式高速下载sra文件,但我一直没成功。可能是因为ncbi已经不支持aspera下载sra文件的方式(参考链接:https://github.com/ncbi/sra-tools/issues/255)
#批量下载
从ncbi的sra数据库上下载access_list.txt文件
然后执行:
cat SRR_Acc_List.txt |while read id;do (prefetch $id -X 100G );done #可加nohup挂后台下载
2.ENA数据库
网上很多人推荐从ena下载sra数据,不仅是因为ena仍然支持aspera高速下载,而且可以直接下载fastq文件,不需要后续sra文件到fastq文件转换。
下载代码:
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/cellranger/etc/asperaweb_id_dsa.openssh \
era-fasp@fasp.sra.ebi.ac.uk:/vol1/fastq/SRR180/001/SRR1805931/SRR1805931_1.fastq.gz .
#批量下载
#进入ena数据库下载TSV文件,整理成如下形式
#fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/009/SRR1039509/SRR1039509_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/000/SRR1039510/SRR1039510_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR103/008/SRR1039508/SRR1039508_2.fastq.gz
....
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001 \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh \
era-fasp@$id .
done
(ena数据库默认的ascp id是era-fasp)
3.GSA数据库
GSA数据库是中科院北京基因组研究所生命与健康大数据中心开发的原始组学数据归档库。与以上两种数据库类似,主要用于存储测序文件。
下载方式:
#根据项目号查找项目
wget -c -r -np -k -L -p ftp://download.big.ac.cn/gsa/[GSA_ID]/ #按项目号搜索后可以得到下载链接,替换即可
wget -i file1.txt
(file.txt:将数据下载链接汇总为一个txt文件)
#使用aspera下载(未成功,代码执行后需要密码,可能需要管理员权限?)
ascp -P33001 -i ~/miniconda3/envs/cellranger/etc/asperaweb_id_dsa.openssh -Q -T -l 200m -k1 -d aspera01@download.cncb.ac.cn:gsa2/CRA006042 ~/scrna/raw/PRJCA008174/