如今大量物种参考基因组数据已被公布,对于科研工作者,可以说是一笔巨大“财富”。那么该如何获取这笔“财富”呢?
本期将介绍几个相关的数据库,并举例演示如何查找和下载到想要的参考基因组及参考基因组得注释信息。
查找参考基因组得常用数据库
1.Ensembl
是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的数据库项目。涵盖大量物种的参考基因组信息,并且数据更新及时,是参考基因组下载的好选择。
动物参考基因组:http://asia.ensembl.org/index.html
植物参考基因组:http://plants.ensembl.org/index.html
其他真菌细菌等参考基因组:http://ensemblgenomes.org/
2.NCBI
是National Centerfor Biotechnology Information的缩写,指美国国立生物技术信息中心。NCBI的全面和强大,相信大家都深有感触,NCBI在参考基因组信息展示上同样表现出色。
地址:https://www.ncbi.nlm.nih.gov/
详细下载方法:http://www.omicsclass.com/article/497
3.UCSC
UCSC Genome Browser是由University of California Santa Cruz (UCSC) 创立和维护的,主要收录一些模式动物得数据库,尤其是人和鼠参考基因组较常用;关于人的基因组注释信息非常全面;
地址:http://genome.ucsc.edu/cgi-bin/hgGateway
4.phytozome(JGI)
主要收录绿色植物基因组的数据库,主要用于植物比较基因组学分析,收录的植物基因组及注释信息很全面,也是一个不错的植物基因组下载数据库;
地址:https://phytozome.jgi.doe.gov/pz/portal.html
5.其它:
一下单一物种的基因组数据库;拟南芥,TAIR是位于美国的拟南芥信息资源网站(The Arabidopsis Information Resource, TAIR)(http://www.arabidopsis.org/);水稻的http://rice.plantbiology.msu.edu/等;
老师在确定参考基因组分析项目的时候,一定要指明自己所用的参考基因组下载地址和版本,因为各个数据库会有各自的一套基因ID,如果用错了参考基因组,由于基因ID的不对应会对后期结果的查看造成不必要得麻烦;
这么多的数据库,各有优缺点,该如何选择合适的参考基因组下载地址呢?针对物种全面程度,和基因组注释信息的详细程度,以及易用性,小编首推Ensembl数据库,今天就来分享一下Ensembl数据库得应用;在接下来得推送也会介绍NCBI和JGI数据库的使用;
Ensembl数据库下载参考基因组
下面以植物拟南芥为例:
1.进入网站:http://plants.ensembl.org/index.html
一些常用的物种列在首页 拟南芥,水稻,玉米等 如果想要得物种不在首页可以点击:View full list of all Ensembl Plants species ;可以得到所有物种的列表;
2. 点击进入拟南芥参考基因组介绍页面;
可以看到拟南芥基因组的介绍信息:
3.下载参考基因组:点击Download DNA sequence (FASTA)
一般我们下载*toplevel.fa.gz文件,为参考基因组完整文件,其他rm,sm,和分开染色体得文件;sm和rm的意义可看README文件,介绍如下,为repeat区不同mask方法:
'dna_rm'- masked genomic DNA. Interspersed repeatsandlow complexity regions are detectedwiththe RepeatMasker toolandmasked by replacing repeatswith'N's.
'dna_sm'- soft-masked genomic DNA. All repeatsandlow complexity regions have been replaced with lowercased versionsoftheir nucleic base
4.基因蛋白质和cds序列文件的下载:
在上一步的网址下,点击 转到高层目录:就可以看到cds和蛋白质pep等的下载
5.基因注释文件gff和gtf文件的下载:
在上一步的基础上继续点击两次转到高层目录:可以看到gff和gtf目录,点击进入到自己想要的物种下载对应的文件即可:
高级应用:
浏览拟南芥一个基因的位置:直接搜索基因名AT2G02740
2. 搜索到该基因的信息:
3.点击基因名得到详细信息:具体位置,不同转录本的位置及信息:
4.查看其中一个转录本序列信息,下载该转录本的蛋白质或者cd序列:
下面是该转录本的详细信息:
总结:
Ensembl 网址收录的基因组全面,下载方便,在线可视化做得也不错,当然由于篇幅限制只能介绍一些简单的应用,还有其他一些实用得应用如blast搜索一些同源基因;BioMart :支持用户个性化的筛选基因组上的注释信息,如指定区域的基因,GO注释,不同数据库的基因ID等等信息,非常强大,有兴趣者可尝试使用。
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。