RNA_seq下载的三种方法:
一、NCBI--GEO--SRA Run Selector (https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA229998)
二、EBI数据--ENA数据(https://www.ebi.ac.uk/ena/browser/home)
- 参见使用ebi数据库直接下载fastq测序数据的改进脚本:https://mp.weixin.qq.com/s/G4UQNUNXqOzeLVypOJIf6Q
三、SRA-explorer : https://sra-explorer.info/
linux下载数据:
1、使用SRA Toolkit下载和转换原始数据:prefetch命令下载sra文件(较慢,不推荐),fastq-dump命令进行sra转换为fastq格式(可用于下游sra文件转换为fastq文件)。
2、Aspera下载数据:
Aspera的常用参数:
-T # 不进行加密。若不添加此参数,可能会下载不了。
-i string # 输入私钥,安装 aspera 后有在目录 ~/.aspera/connect/etc/ 下有几个私钥,
使用 linux 服务器的时候一般使用 asperaweb_id_dsa.openssh 文件作为私钥。
--host=string # ftp的host名, NCBI的为ftp-private.ncbi.nlm.nih.gov;
EBI的为fasp.sra.ebi.ac.uk。
--user=string # 用户名, NCBI的为anonftp, EBI的为era-fasp。
--mode=string # 选择模式,上传为 send,下载为 recv。
-l string # 设置最大传输速度,比如设置为 200M 则表示最大传输速度为 200m/s。
若不设置该参数,则一般可达到10m/s的速度,而设置了,传输速度可以更高。
- 附:
1、使用aspera从EBI下载fastq数据,抛弃NCBI的SRA数据库吧
https://mp.weixin.qq.com/s/8xWl_DAYhFnLjdlg5ZcdIw
https://mp.weixin.qq.com/s/G4UQNUNXqOzeLVypOJIf6Q
http://blog.sciencenet.cn/home.php?mod=space&uid=689440&do=blog&id=1023672
2、linux下载aspera及安装:
a Ubuntu下Aspera connect的安装与使用 https://www.jianshu.com/p/9142911b2e15
b Aspera工具安装与使用 https://www.jianshu.com/p/a6ac81456c01
>wget http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz
>tar -xvf aspera-connect-3.6.2.117442-linux-64.tar.gz
>sh aspera-connect-3.6.2.117442-linux-64.sh #此方法下载aspera比较慢
#试用
>axel -n 16 http://download.asperasoft.com/download/sw/connect/3.6.2/aspera-connect-3.6.2.117442-linux-64.tar.gz ##*axel是Linux下一个不错的HTTP/[ftp](http://man.linuxde.net/ftp "ftp命令")高速下载工具。支持多线程下载、断点续传,且可以从多个地址或者从一个地址的多个连接来下载同一个文件。适合网速不给力时多线程下载提高下载速度
#或
$ sudo mkdir /usr/local/src/aspera_connect
$ tar -zxvf aspera-connect-3.6.2.117442-linux-64.tar.gz -C /usr/local/src/aspera_connect
$ cd /usr/local/src/aspera_connect/ ; sh aspera-connect-3.6.2.117442-linux-64.sh
$ echo "alias acsp=/home/sxuan/.aspera/connect/bin/ascp" >> ~/.bashrc
$ source ~/.bashrc
$ ascp --help
#或
conda search aspera
conda install aspera=version
$ echo "alias acsp=/home/sxuan/.aspera/connect/bin/ascp" >> ~/.bashrc
$ source ~/.bashrc
$ ascp --help
附:安装axel工具:
wget -c http://pkgs.repoforge.org/axel/axel-2.4-1.el5.rf.x86_64.rpm
rpm -ivh axel-2.4-1.el5.rf.x86_64.rpm
3、最简单的方法是安装aspera软件,方法是:(从teach目录下进行软连接,只适合教程练习用)
ln -s /teach/software/ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz ./
tar -zxvf ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.tar.gz
bash ibm-aspera-connect-3.8.1.161274-linux-g2.12-64.sh
echo 'export PATH=~/.aspera/connect/bin/:$PATH' >> ~/.bashrc
source ~/.bashrc
4、批量下载:
###可以用这个命令下载,不用while循环#######
>ascp -l 100M -P33001 \
-i /trainee2/May5/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--mode=recv --host=fasp.sra.ebi.ac.uk --user=era-fasp --file-list=brca_modify.txt .
brca_modify_7_12.txt
##下载7到12条双端测序:
ascp -QT -l 100M -P33001 \
-i /trainee2/May5/.aspera/connect/etc/asperaweb_id_dsa.openssh \
--mode=recv --host=fasp.sra.ebi.ac.uk --user=era-fasp --file-list=brca_modify_11_26.txt .
其他软件:
- mutiQC:支持的软件
fastqc:质量控制生成软件
fastp:序列修剪的软件
bowtie2、hisat2、tophat:比对软件
salmon:不需要比对即可定量表达量的软件
featureCounts:比对完成后对基因进行定量的软件