一般在转录组或者基因表达相关的文献中,末尾都会附上Accession Numbers,可以用这个编号在GEO(Gene Expression Omnibus)数据库上下载该研究用到的原始数据或是一些结果文件。我选了一篇拟南芥的文章来学习,主要原因是拟南芥的基因组小,且研究较成熟,参考数据比较全。
百度搜索GEO
输入编号后查询
会自动搜索出对应的文献标题,点进去看页面下方
点击SRA编号
点击Send results to Run selector
样本编号和Run编号是一一对应的
接下来用ascp下载数据,会比prefetch快不少,不过在下载的同时进行其他命令会卡顿。
关于下载方法,这一篇写得很好:SRA、SAM以及Fastq文件高速下载方法
for i in `seq 59 70`
do
ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l 1000m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR126/SRR12668${i}/SRR12668${i}.sra ./
done
解压
for i in `seq 59 70`
do
fastq-dump --gzip --split-3 --defline-qual '+' --defline-seq '@$ac-$si-$ri' SRR12668${i}.sra -O /ifs1/Grp3/huangsiyuan/learn_rnaseq/srna_project/data/
done
$ ls *.sra
SRR1266859.sra SRR1266861.sra SRR1266863.sra SRR1266865.sra SRR1266867.sra SRR1266869.sra
SRR1266860.sra SRR1266862.sra SRR1266864.sra SRR1266866.sra SRR1266868.sra SRR1266870.sra
$ ls SRR*.fastq.gz
SRR1266859.fastq.gz SRR1266861.fastq.gz SRR1266863.fastq.gz SRR1266865.fastq.gz SRR1266867.fastq.gz SRR1266869.fastq.gz
SRR1266860.fastq.gz SRR1266862.fastq.gz SRR1266864.fastq.gz SRR1266866.fastq.gz SRR1266868.fastq.gz SRR1266870.fastq.gz
可以得知,是单端测序