在进行差异基因表达分析时,得到显著差异基因后,接下来就需要分析这些基因参与了哪些功能,常见的就是GO功能注释和KEGG通路富集分析,今天为大家介绍在线分析工具的使用——DAVID与KOBAS 3.0。
DAVID是一个生物信息数据库,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路富集分析。
KOBAS是一个被广泛用于基因/蛋白质功能注释和功能集富集的网页版数据库。使用者在给定一组基因或蛋白质,该数据库可以确定某些通路和基因本体论(GO)是否有统计学显着性。
Step 1:打开网站https://david.ncifcrf.gov/,进入DAVID首页,然后点击Start Analysis;
Step 2:输入所需要富集的显著差异基因的基因名,并在select identifier中选择official_gene_symbol,然后在List type中选择gene list,最后点击submit list;
Step 3:由于本次分析使用的是人类癌细胞,故在list和background中的物种都选择homo sapiens,读者可根据自己研究物种的类型进行选择;
Step 4:由于KOBAS 3.0的输入不支持gene symbol,所以使用者在使用前需将Symbol ID转换成Entrez Gene ID(或者)ensembl格式的ID。
或者,也可使用gprofiler把基因ID进行转换http://biit.cs.ut.ee/gprofiler/convert。
操作流程:
(1)上传或者粘贴含有基因列表的数据
(2)选择物种为homo sapines
(3)确定输出格式为ENSG
(4)点击RUN
(5)下载注释后的数据:Export to CSV
Step 5:KOBAS注释。打开KOBAS 3.0网站http://kobas.cbi.pku.edu.cn/kobas3/?t=1,点击“gene-list enrichment”,根据研究对象类型,进行相应选择。比如在这里,我们在“Type”里选中“Entrez Gene ID”,在“Species”选“Homo sapiens”,再把转换后的ID复制黏贴进去:
选择KEGG Pathway与GO,点击Run;
得到富集结果如下:
最后,可用Cytoscape软件把得到的KEGG通路和DEG数据做出可视化图片,就能清晰看出两者之间的关系。如下图,我们可以发现哪些基因表达下调,哪些基因参与什么样的通路等等。
图片来自于https://doi.org/10.2174/1389202920666191011092410
大家可参考以下这篇2011年中国学者们在《Nucleic Acids Research》发表的文章,它详细介绍了KOBAS的使用。
https://doi.org/10.1093/nar/gkr483
GO与KEGG富集分析,往往同时出现在不同场合,DAVID其实就可以做GO与KEGG富集分析,但相比之下,KOBAS画出的图更赏心悦目,但KOBAS不支持直接输入gene symbol ,所以我们常常联合使用DAVID和KOBAS。