有些时候,我们需要从genebank中下载别人原始的测序数据来学习。
最开始的时候,我只是从NCBI上面之间点击下载fastq文件,用浏览器自带的下载工具下载,但是有些时候,你会发现并没有fastq文件可以下载,取而代之的是SRA。那么什么是SRA呢?
Sequence Read Archive (SRA) makes biological sequence data available to the research community to enhance reproducibility and allow for new discoveries by comparing data sets. The SRA stores raw sequencing data and alignment information from high-throughput sequencing platforms, including Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD System®, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®.
大家可以具体看NCBI上的介绍:
https://www.ncbi.nlm.nih.gov/sra
SRA数据有四类
Studies (SRP)
Experiments (SRX)
Runs (SRR)
Samples (SRS)
一般测序仪下来的原始数据就是Run
所以我们一般可以看到很多文章后面会写
The SRA accession numbers are SRR*******
然后我们去下载
我们在NCBI上面SRA搜索中输入 SRR****
然后你点击去,发现下载要使用一个工具 sratoolkit
那么我就来安装一下
点击之后选择你电脑的版本
然后我创建了一个文件夹, 使用wget 下载
使用prefetch 下载
过一会儿就下载好了
文件在路径在
下载完了之后,发现其实这个软件还是有很多功能的
我这里来试一试转换为 fastq文件,文件大的话还是有点耗时间的。
OK 了
其实还有很多的实用工具可以使用,要看懂帮助手册。
补充 双端测序分成 2个reads