导读
记录常用的NCBI数据库,方便查询。
一、NCBI库
1 下载基因组
1.1 方法: NCBI ftp genome download
1.2 reviewed genome完整列表:ftp://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/
1.3 基因组信息
下载名称:GCF_000063585.1_ASM6358v1_genomic.fna
序列信息:>NC_009495.1 Clostridium botulinum A str. ATCC 3502, complete genome
2 物种参考基因组
完整基因组 + 不完整基因组
ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/
3 NCBI_nt库
mkdir NCBI_nt
cd NCBI_nt
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/nt.*.tar.gz"
for a in nt.*.tar.gz; do tar xzf $a; done
wget -c "ftp://ftp.ncbi.nlm.nih.gov/blast/db/v4/nt_v4.*.tar.gz"
# Note: if you are using a more recent blast verions (beyond v2.6)
# you will need a the newer database format
4 NCBI_nr库
wget -c ftp://ftp.ncbi.nih.gov/blast/db/nr.*.tar.gz
# 下载blast格式化nr库,比直接下载更方便
/home/cheng/softwares/ncbi-blast-2.10.0+-src/c++/ReleaseMT/bin/blastdbcmd -db nr -entry all -dbtype prot -out test.fa
# 用blast中的blastdbcmd功能从nr blast库提取fasta
5 NCBI taxonomy库
mkdir NCBI_tax
cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz
二、其他数据库
1 ucsc human genome hg38
mkdir BMTAGGER_INDEX
cd BMTAGGER_INDEX
wget ftp://hgdownload.soe.ucsc.edu/goldenPath/hg38/chromosomes/*fa.gz
gunzip *fa.gz
cat *fa > hg38.fa
rm chr*.fa
2 ensemble mouse genome
https://github.com/ParkinsonLab/Metatranscriptome-Workshop
wget ftp://ftp.ensembl.org/pub/current_fasta/mus_musculus/cds/Mus_musculus.GRCm38.cds.all.fa.gz
gzip -d Mus_musculus.GRCm38.cds.all.fa.gz
mv Mus_musculus.GRCm38.cds.all.fa mouse_cds.fa
3 uniprot50 90 100
https://ftp.expasy.org/databases/uniprot/current_release/uniref/
2020.9.10更新