宏基因组功能注释(以COG为例)

Contigs/Scaffolds序列经基因预测、ORF开放阅读框识别(Open Reading fr ame)和蛋白翻译之后,就可以进行功能注释分析了。我们将基因/蛋白序列在特定的数据库中搜索比对,从而完成功能注释分析。常用的功能数据库主要包括KEGG、EggNOG、GO、COG和CAZy等。

功能注释就是我们拿到翻译的蛋白之后,与不同的功能(蛋白)数据库进行对比。至于选择哪种数据库要看研究者的目的以及数据条件(如真核还是原核)。我们选择COG数据库,原因是目前单位还没有相应的流程,在一步步的操作中有助于我们的理解,仅此。

不同的功能数据库可以用来解决具体问题,所以先看看COG是干嘛的,然后是怎样注释的,最后是注释结果的解读。

COG是干嘛的

COG,即Clusters of Orthologous Groups of proteins。可以理解为COG是NCBI的数据库。COG的中文释义即“同源蛋白簇”。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG数据库按照功能一共可以分为二十六类。

蛋白质直系同源簇
  • 保守
    • 相似的结构和生物学功能(关键性调控蛋白)
    • 重现物种的进化历史

其网址主页为:COG
其FTP站点为:COG

COG注释作用:1. 通过已知蛋白对未知序列进行功能注释; 2. 通过查看指定的COG编号对应的protein数目,存在及缺失,从而能推导特定的代谢途径是否存在; 3. 每个COG编号是一类蛋白,将query序列和比对上的COG编号的proteins进行多序列比对,能确定保守位点,分析其进化关系。当然,这里我们说的是第一种作用。

NCBI COG的数据库主要更新历史
  1. 1997 年 第一个公布版本,7个完整基因组,720个COG分类, 包含原核基因组和单细胞真核基因组(酵母),2003 年和2014 年进行了版本升级,最后只保留了细菌和古菌,包含了711个基因组以及4,631个COG分类, 26个功能分类。
  2. 2013 年构建真核分支COG(KOG, Eukaryotic orthologous groups);
  3. 2007 年构建古菌分支COG(arCOG, Archaeal Clusters of Orthologous Genes),2012 年和2014 年arCOG进一步升级,arCOG比较适合用于古菌基因组注释;
  4. 2011 年构建Phage分支COG(POG,phage orthologous groups),2013 年进行了升级;

由于计算资源需求,NCBI COG 构建了不同系统分类分支的COG簇,比如arCOG,KOG, POG等,推荐使用这些分支对新测序基因组进行注释,其实eggNOG 尤其是4.x版本也使用了clade特异的聚类模式。

其实,eggNOG(版本 4.5.1+) 数据库对 NCBI COG 进行扩展,并包含了真核生物信息, 版本 3.0 被广泛应用于(元)基因组数据分析, 另外一个类似数据是 STRING (版本 10.0) 也可以实现COG/KOG的功能注释,主要特色是蛋白质相互作用注释,eggNOG 升级到了 4.0 以后提供基于HMM隐马尔可夫谱的分析,并提供了更细致的 OG 分析,可根据物种所属的clade选择参考数据集,可以有效的降低计算量,另一个特色就是提供了 GO以及其它注释信息(KEGG/COG/SMART)关联分析。

从2003年至2014年NCBI COG一直未更新,EMBL EggNOG(evolutionary genealogy of genes: Non-supervised Orthologous Groups)继承了NCBI COG的衣钵,极大的扩展了基因组信息。 4.5.1 版本, 把包含了2,031个基因组, 其中 352病毒基因组, 190k个直系同源家族。如果做了eggNOG功能注释还有必要做COG注释吗?

eggNOG 数据库包含了丰富的注释信息,除了COG/KOG/NOG的分类和注释信息外,还包含了KEGG/GO/SMART/PFAM信息。

新版本的EggNOG 还提供了自动化注释工具eggnog-mapper,可很方便的完成基因组的功能注释,注释信息可以关联COG/KOG/KEGG/GO/BiGG等。

EggNOG
怎样注释的

既然EggNOG数据库比COG数据库更新更全面,那我们还讲COG干嘛?要知道,COG老是老了一点,那是人家经典。而且目前两者都可以用同一种比对软件来注释,所以不影响阅读。序列决定结构,结构决定功能。功能注释本质是目标蛋白序列同功能蛋白序列数据库的比对过程

宏基因组数据比对神器 DIAMOND(double index alignment of
next-generation sequencing data))

2015年nature methods上发布了一款新的比对软件DIAMOND,是一款新的用于短DNA测序reads与蛋白参考数据库比对的工具。以Illumina的100~150 bp的reads为例,在快速模式下,DIAMOND比对速度比BLASTX要快20,000倍,可以报告BLASTX发现的80-90%的比对数据,e-value至多为1e-5。如果使用灵敏模式,DIAMOND的比对速度也要比BLASTX快2,500倍,可以报告超过94%的比对数据。

1)使用DIAMOND软件将 Unigenes 与各功能数据库进行比对(blastp,evalue ≤ 1e-5)

2)比对结果过滤:对于每一条序列的 比对结果,选取 score 最高的比对结果(one HSP > 60 bits)进行后续分析

Function/DIAMOND/diamond blastp -q Unigenes_50.fa -d  database/COG/cog_clean.fa -t  COG/blastout -p 4 -e 1e-5 -k 50 --sensitive -o Unigenes_50.fa.m8
  • double indexing
  • spaced seeds

比对结果,m8格式12列对应的含义依次是:

比对结果m8格式
  Query id:查询序列ID标识
  Subject id:比对上的目标序列ID标识
  % identity:序列比对的一致性百分比
  alignment length:符合比对的比对区域的长度
  mismatches:比对区域的错配数
  gap openings:比对区域的gap数目
  q. start:比对区域在查询序列(Query id)上的起始位点
  q. end:比对区域在查询序列(Query id)上的终止位点
  s. start:比对区域在目标序列(Subject id)上的起始位点
  s. end:比对区域在目标序列(Subject id)上的终止位点
  e-value:比对结果的期望值,解释是大概多少次随即比对才能出现一次这个score,Evalue越小,表明这种情况,从概率上越不可能发生,但是现在发生了,所以这个比对具有很重要的意义
  bit score:比对结果的bit score值

功能层级:

INFORMATION STORAGE AND PROCESSING
 [J] Translation, ribosomal structure and biogenesis 
 [A] RNA processing and modification 
 [K] Transcription 
 [L] Replication, recombination and repair 
 [B] Chromatin structure and dynamics 

CELLULAR PROCESSES AND SIGNALING
 [D] Cell cycle control, cell division, chromosome partitioning 
 [Y] Nuclear structure 
 [V] Defense mechanisms 
 [T] Signal transduction mechanisms 
 [M] Cell wall/membrane/envelope biogenesis 
 [N] Cell motility 
 [Z] Cytoskeleton 
 [W] Extracellular structures 
 [U] Intracellular trafficking, secretion, and vesicular transport 
 [O] Posttranslational modification, protein turnover, chaperones 
 [X] Mobilome: prophages, transposons
 
METABOLISM
 [C] Energy production and conversion 
 [G] Carbohydrate transport and metabolism 
 [E] Amino acid transport and metabolism 
 [F] Nucleotide transport and metabolism 
 [H] Coenzyme transport and metabolism 
 [I] Lipid transport and metabolism 
 [P] Inorganic ion transport and metabolism 
 [Q] Secondary metabolites biosynthesis, transport and catabolism 

POORLY CHARACTERIZED
 [R] General function prediction only 
 [S] Function unknown 

筛选后blast m8结果
筛选后blast结果的注释信息

3)从比对结果出发,统计不同功能层级的相对丰度(各功能层级的相对丰度等于注释为该功能层级的基因的相对丰度之和),其中,KEGG 数据库划分为 5 个层级,eggNOG 数据库划分为 3 个层级,CAZy 数据库划分为 3 个层级,各数据库的详细划分层级如下所示:

各数据库的详细划分层级

4)从功能注释结果及基因丰度表出发,获得各个样品在各个分类层级上的基因数目表,对于某个功能在某个样品中的基因数目,等于在注释为该功能的基因中,丰度不为 0 的基因数目;

基因功能注释 COG功能分类图
      说明 横坐标表示COG功能类型,纵坐标表示注释上的基因个数。

5)从各个分类层级上的丰度表出发,进行注释基因数目统计,相对丰度概况展示,丰度聚类热图展示,PCA和NMDS降维分析,基于功能丰度的Anosim组间(内)差异分析,代谢通路比较分析,组间功能差异的Metastat和LEfSe分析。

宏基因组学那些事之数据库与软件
每日一生信--COG注释(终结版)
diamod安装及使用说明阅读笔记
序列功能注释神器:eggNOG-mapper,KEGG/COG/KOG/GO/BiGG 一网打尽
诺禾致源宏基因组结题报告
诺禾致源扩增子结题报告

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容

  • 转载 :https://www.plob.org/article/3856.html 生物信息数据库与查询 近年来...
    oddxix阅读 10,650评论 0 37
  • eggnog-mapper实现功能注释 eggNOG-Mapper介绍 通常功能注释的思路都是基于序列相似性找直系...
    xuzhougeng阅读 48,763评论 15 90
  • 关于GO 注释的心得体会 目前对于GO功能注释的思路有 以下常见的四种: 1、BLAST+InterProScan...
    IMC小达人阅读 6,541评论 9 29
  • 太阳在我屁股底下照着别人生活的时候我还在辗转反侧难以入眠。 我在思考,世界,宇宙,空间,深海,气候等那些我无法改变...
    阿拉母鸡雷缩的萨玩意儿阅读 229评论 0 0
  • 圆画着平行线 平行但不平直 终点没有尽头 不动仍在前行 时间从未停止 所谓存在不过昙花一现 分分秒秒己经岁岁年年 ...
    溪林飞羽阅读 232评论 0 2