写在前面的废话
注释文件的格式已经被各种教程讲烂了,那我肯定不能这么俗套。所以咱们今天只谈风花雪月,不讲具体格式……
搞NGS,注释文件是我们经常需要用到的。但是不同的实验室偏爱的数据库各不相同,甚至同一个课题组的小伙伴都会选择不同来源的数据库。那么不同来源的数据库是否有什么不同呢?如何选择更适合我们研究的注释呢?
太长不看系列
- 主流的基因注释版本有三种:RefSeq/Ensemble/UCSC
- Refseq=NCBI;Ensemble=Gencode
- Ensemble注释更全面,Refseq适合那些不那么复杂的注释
废话超多系列
首先,我们要知道Refseq是由美国NCBI搞出来的,而ENSEMBL则是由欧洲EMBL-EBI搞出来的,所以这俩不是一回事,甚至可以说差别有点大。
那么差别在哪呢?咱从Gencode说起……
Gencode
咱先给官方的介绍一下:
GENCODE项目的目标是基于生物学证据高精度地识别和分类人类和小鼠基因组中的所有基因特征,并发布这些注释以利于生物医学研究和基因组解释
怎么样?够官方吧……毕竟我是直接把官网的介绍翻译过来的
接下来,说点接地气的。Gencode的注释来源于两部分。分别是Ensembl-Havana团队生成的手动基因注释和Ensembl-genebuild的自动基因注释。当我们使用Ensembl genome browser时,默认的基因注释就是Gencode annotation。
这里值得一提的是,在gencode中标识HAVANA来源的,这表示它是人工注释的。但是这些注释也有可能是由于Havana手动注释和Ensembl自动注释合并的结果
而如果标识的是ENSEMBL,则表明这条注释是由的确是Ensemble自动注释得到的
实际上,GENCODE注释与Ensembl注释基本相同……此处划重点,是基本,但不是全部~那么有那些不同呢?
- X/Y染色体上PAR区域的注释:该区域的注释在Gencode中X染色体和Y染色体各注释一次,而在Ensembl文件中,只在X染色体进行了注释
PAR region(Pseudoautosomal region):该区域是X和Y染色体的同源序列,因为这上面的任何基因可以和常染色体基因一样正常遗传而得名
- Gencode的第九列,也就是attribute那一列,有一些其他额外的tags,这些tags是Ensebl所没有的
所以说gencode的基因组注释基本上和Ensemble是一样的。
Gencode与Refseq
gencode的注释,我们最常用的是Comprehensive 版本,这个版本有一个特点,那就是全。这个版本与Refseq相比,转录本注释有着更多更全的外显子,对基因组的覆盖范围更广,能够帮助我们发现更多的突变。
当然了,有Comprehensive版本,那一定有basic版本,就是下面这个了。这个版本与Refseq相比,相似性更高,没有什么所特有的features。
说了这么多,你可能要问了,不同来源的注释文件是否可以相互转换?那我只能很遗憾的告诉你:不能。虽然从整体上来看,这两个来源的注释信息大体上是相同的(如果只看某一些基因还是可以发现不同指出),但是这两个来源的注释都有不同的版本,而这些不同的版本很难一一对应。
不过,虽说注释信息不可以相互转换,但是Refseq ID和ENSEMBL(Gencode) ID是可以相互转换的。我们可以使用在线工具http://www.ensembl.org/biomart/martview ,也可以使用Biocundutor包调用API,比如biomaRT
UCSC注释
对不起,我没有用过,所以我不能误人子弟,就不多说了。
主要是下载太麻烦,需要各种按钮选择,让我很头疼
如何选择适合自己的注释文件?
首先我们需要知道,没有任何一个注释文件是完美的,总会有一些小的瑕疵。可能一些基因的注释不是很精确,甚至有可能全部都是错的……
如果我们想要做一些可重复度高的,或者对基因表达水平进行估计的时候,我们因=应该选择那些不那么复杂的基因注释,比如Refseq。当我们想要做一些探索性研究的时候,比如可变剪切之类的,我们可以选择比较复杂的基因注释,比如Ensembl
source: Wu P-Y, Phan JH, Wang MD. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 2013;14(Suppl 11):S8. doi: 10.1186/1471-2105-14-S11-S8.
一点题外话
不要觉得注释文件不重要!!!看看人家,比较了注释文件,就发了一篇sci,引用量还不低……