GO注释下载数据库来源:
- GO官网 格式是GAF. 只有几种动物和模式生物
- EBI的GOA项目下载 只有几种常见动物和模式生物,格式是GAF.
- NCBI的基因ftp数据库 包含gene2go,gene2ensembl,gene2pubmed等,每天或每周更新,包含所有物种的信息
-
Bioconductor的Annotationhub数据库 直接搜索自己所研究的物种的拉丁学名,即可找到对应的sqlite文件。此数据库来源于3.NCBI的基因数据库,选择的时候,尽量使用最新版本的。也可以自己从3.NCBI的数据库下载,之后本地构建最新版本的sqlite文件。 例如:玉米是org.Zea_mays.eg.sqlite
sqlite文件主要用于R语言中做富集分析使用,例如:clusterProfiler可以使用这个数据库。下载的服务器(国外)是s3.amazonaws.com,默认15kb/s,需要自行加速下载。
1和2基本是相同的,3和4是相同的。4来源于3.
uniref100,uniref90,uniref50是蛋白质数据库
uniref100是包含所有的已经验证的蛋白质的序列
UniRef90基于UniRef100构建,而UniRef50基于UniRef90构建.
UniRef90和UniRef50分别使数据库大小减少了约58%和79%,从而显着加快了序列相似性搜索.
下载地址
uniref100
uniref90
uniref50
数据下载工具axel
命令行常用的wget和curl是单线程下载,速度非常慢。
axel -n 24 ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/uniref90.fasta.gz
使用24个下载线程,下载速度大大提高。