biostar 学习笔记(4-1)--- 认识数据和数据的获取
一 常用数据库
- NCBI
- ensembl
- UCSC
用的最频繁的还是NCBI,下面以NCBI为例,整理数据类型和数据获取。
二 数据类型
GenBank
NCBI中所有被注释和鉴定的DNA序列信息。
SRA
NCBI中高通量测序文件的压缩格式。
fasta
第一行以”>“开头,为序列信息。
第二行开始为序列。
foo ATGCC bar other optional text could go here CCGTA
fastq
fastq为高通量测序文件,其压缩格式为sra。主要包括四行:第一行为序列id信息,第二行为序列,第三行信息为+,可以添加其他信息,第四行测序碱基质量信息。
@SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''((((+))%%%++)(%%%%).1-+''))**55CCF>>>>>>CCCCCCC65`
三 数据的获取
如果我们需要的信息比较少,则可进行ncbi网站直接搜索下载即可。如需要批量下载,可以安装Entrez Direct。这个软件是perl依赖的,所以安装之后可能会缺失perl模块而报错,缺什么就装上即可。安装代码如下:
wget ftp://ftp.ncbi.nlm.nih.gov/entrez/entrezdirect/edirect.zip
unzip edirect.zip
cd edirect
ls
./setup.sh
echo "export PATH=\$PATH:/home/wxw/biosoft/edirect/edirect" >> $HOME/.bashrc
source ~/.bashrc
获取核酸序列
esearch -db nucleotide -query PRJNA257197 | efetch -format=fasta > genomes.fa获取蛋白序列
格式也可以保存为gb,也就是genbank的格式。
esearch -db protein -query PRJNA257197 | efetch -format=fasta > proteins.fa
当然,也可以批量获取。
efetch -db nucleotide -id KM233090,KM233066,KM233113.1 -format fasta > multi.fa
sra的获取,需要先安装sratoolkit。
cd ~/biosoft
mkdir sratoolkit && cd sratoolkit
wget https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2/sratoolkit.2.8.2-centos_linux64.tar.gz
#也可以下载对应的其他版本
tar -xzvf sratoolkit.2.8.2-centos_linux64.tar.gz && cd sratoolkit.2.8.2-centos_linux64/bin/
pwd
echo "export PATH=~/biosoft/sratoolkit/sratoolkit.2.8.2-centos_linux64/bin:$PATH" >> ~/.bashrc
source ~/.bashrc
使用prefetch下载对于id的sra文件即可
prefetch SRR1553610
当然,也可以批量获取。
echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids