你可能不知道的基因组注释文件冷知识

写在前面的废话

注释文件的格式已经被各种教程讲烂了，那我肯定不能这么俗套。所以咱们今天只谈风花雪月，不讲具体格式……

搞NGS，注释文件是我们经常需要用到的。但是不同的实验室偏爱的数据库各不相同，甚至同一个课题组的小伙伴都会选择不同来源的数据库。那么不同来源的数据库是否有什么不同呢？如何选择更适合我们研究的注释呢？

image.png

太长不看系列

主流的基因注释版本有三种：RefSeq/Ensemble/UCSC
Refseq=NCBI；Ensemble=Gencode
Ensemble注释更全面，Refseq适合那些不那么复杂的注释

废话超多系列

首先，我们要知道Refseq是由美国NCBI搞出来的，而ENSEMBL则是由欧洲EMBL-EBI搞出来的，所以这俩不是一回事，甚至可以说差别有点大。

那么差别在哪呢？咱从Gencode说起……

image.png

Gencode

咱先给官方的介绍一下：
GENCODE项目的目标是基于生物学证据高精度地识别和分类人类和小鼠基因组中的所有基因特征，并发布这些注释以利于生物医学研究和基因组解释

怎么样？够官方吧……毕竟我是直接把官网的介绍翻译过来的

接下来，说点接地气的。Gencode的注释来源于两部分。分别是Ensembl-Havana团队生成的手动基因注释和Ensembl-genebuild的自动基因注释。当我们使用Ensembl genome browser时，默认的基因注释就是Gencode annotation。

这里值得一提的是，在gencode中标识HAVANA来源的，这表示它是人工注释的。但是这些注释也有可能是由于Havana手动注释和Ensembl自动注释合并的结果
而如果标识的是ENSEMBL，则表明这条注释是由的确是Ensemble自动注释得到的

实际上，GENCODE注释与Ensembl注释基本相同……此处划重点，是基本，但不是全部~那么有那些不同呢？

X/Y染色体上PAR区域的注释：该区域的注释在Gencode中X染色体和Y染色体各注释一次，而在Ensembl文件中，只在X染色体进行了注释

PAR region(Pseudoautosomal region)：该区域是X和Y染色体的同源序列，因为这上面的任何基因可以和常染色体基因一样正常遗传而得名
Gencode的第九列，也就是attribute那一列，有一些其他额外的tags，这些tags是Ensebl所没有的

所以说gencode的基因组注释基本上和Ensemble是一样的。

Gencode与Refseq

gencode的注释，我们最常用的是Comprehensive 版本，这个版本有一个特点，那就是全。这个版本与Refseq相比，转录本注释有着更多更全的外显子，对基因组的覆盖范围更广，能够帮助我们发现更多的突变。

当然了，有Comprehensive版本，那一定有basic版本，就是下面这个了。这个版本与Refseq相比，相似性更高，没有什么所特有的features。

image.png

说了这么多，你可能要问了，不同来源的注释文件是否可以相互转换？那我只能很遗憾的告诉你：不能。虽然从整体上来看，这两个来源的注释信息大体上是相同的（如果只看某一些基因还是可以发现不同指出），但是这两个来源的注释都有不同的版本，而这些不同的版本很难一一对应。

不过，虽说注释信息不可以相互转换，但是Refseq ID和ENSEMBL(Gencode) ID是可以相互转换的。我们可以使用在线工具http://www.ensembl.org/biomart/martview ，也可以使用Biocundutor包调用API，比如biomaRT

UCSC注释

对不起，我没有用过，所以我不能误人子弟，就不多说了。

主要是下载太麻烦，需要各种按钮选择，让我很头疼

如何选择适合自己的注释文件？

首先我们需要知道，没有任何一个注释文件是完美的，总会有一些小的瑕疵。可能一些基因的注释不是很精确，甚至有可能全部都是错的……

如果我们想要做一些可重复度高的，或者对基因表达水平进行估计的时候，我们因=应该选择那些不那么复杂的基因注释，比如Refseq。当我们想要做一些探索性研究的时候，比如可变剪切之类的，我们可以选择比较复杂的基因注释，比如Ensembl

source: Wu P-Y, Phan JH, Wang MD. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 2013;14(Suppl 11):S8. doi: 10.1186/1471-2105-14-S11-S8.

一点题外话

不要觉得注释文件不重要！！！看看人家，比较了注释文件，就发了一篇sci，引用量还不低……

image.png

参考资料

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,711评论 5赞 468
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,932评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,770评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,799评论 1赞 271
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,697评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,069评论 1赞 276
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,535评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,200评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,353评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,290评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,331评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,020评论 3赞 315
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,610评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,694评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,927评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,330评论 2赞 346
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,904评论 2赞 341

你可能不知道的基因组注释文件冷知识

写在前面的废话

太长不看系列

废话超多系列

Gencode

Gencode与Refseq

UCSC注释

如何选择适合自己的注释文件？

一点题外话

参考资料

推荐阅读更多精彩内容