使用KAAS做KEGG注释
标签: KEGG, RNAseq, bioinformatics
什么是KEGG
中文名: 京都基因与基因组百科全书
外文名: koyto Encyclopedia of Genes and Genomes
简介 百度百科
KEGG(京都基因与基因组百科全书)是基因组破译方面的数据库。在后基因时代一个重大挑战是如何使细胞和有机体在计算机上完整的表达和演绎,让计算机利用基因信息对更高层次和更复杂细胞活动和生物体行为作出计算推测。为达到此目的,人们建立了一个在相关知识基础上的网络推测计算工具。在给出染色体中一套完整的基因的情况下,它可以对蛋白质交互(互动)网络在各种细胞活动起的作用作出预测。 KEGG 的PATHWAY 数据库整合当前在分子互动网络(比如通道,联合体)的知识,KEGG 的GENES/SSDB/KO 数据库提供关于在基因组计划中发现的基因和蛋白质的相关知识,KEGG 的COMPOUND/GLYCAN/REACTION数据库提供生化复合物及反应方面的知识。
准备工作
步骤
- 对于已知基因组的物种进行全基因组的KEGG注释选择<font color=red>Complete or Draft Genome</font>选项中的KAAS job request(BBH-method).BBH-method表示bi-directional best hit,双向的匹配,准确率更高。
-
比对方法有三种:BLAST,GHOSTX,GHOSTZ,各有各的优缺点,其中BLAST结果更加准确,但是好像对输入的数据大小有要求,如果条目太多返回邮件会提示删减条目,可以输入的数据可以是核酸序列也可以是蛋白序列。在query name地方可以自己命名这次注释工作。 然后填写自己的邮箱
- GENES data set这个项目中存在预设的参考物种信息,可以发现其中提供的各个门类,物种的多样性特别高,有动物,植物,微生物的,如果我们直接用默认的物种进行注释,可以得到很全面的注释,但是在后来做enrichment的时候会发现很多会富集到疾病等代谢通路上,在植物研究中这些明显不具有参考价值,所以可以手动的选择Manual selection,其中提供了大量植物的background,总共我们可以选择40个。
-
选择双向匹配,然后开始。
结果
根据输入数据大小,网速等需要等待一段时间,好了以后会收到一封邮件,然后会给两个链接,首先要确认开始
Job Request
An email has been sent to xxx@xx.com for confirmation.
Please click on the link in the email to submit your KAAS job.
Automatic Annotation Server Ver. 2.1
KAAS - Job request accepted
KEGG Automatic Annotation Server Ver. 2.1
Your request ID is 1537237762.Please click on the link below to submit your job.
https://www.genome.jp/kaas-bin/kaas_main?mode=submit&id=Num.&key=PP_DnQbB (Submit)https://www.genome.jp/kaas-bin/kaas_main?mode=cancel&id=Num.&key=PP_DnQbB (Cancel)
If no action is taken within 7 days, your request will be deleted.
Best regards
GenomeNet Team
Request IDNum. is submitted.
The URL of your result page will be following address.
https://www.genome.jp/kaas-bin/kaas_main?mode=user&id=Num&key=PP_DnQbB
KAAS - Accepted
KEGG Automatic Annotation Server Ver. 2.1
Your request ID is Num。The URL of your result page will be following address
https://www.genome.jp/kaas-bin/kaas_main?mode=user&id=Num.&key=PP_DnQbBBest regards
GenomeNet Team
当服务器运算结果出来以后会邮件通知,结果又两种形式,一种是网页版,他会列出所有注释到的信息,然后每个信息对应的通路图,还会提供geneID2KUM,每个基因对应的kegg的K号(直系同源)