GO富集分析是基因功能分析中非常重要的一个大类,其主要的作用是为了人们提供基因发挥作用的类型指导,即感兴趣的基因到底在哪些生物学进程中发挥作用。在GFAP中,可以根据近缘物种的比对结果对感兴趣的基因进行 GO 注释。第一步是获取GO IDs.
将比对结果输入相应的对话框,之后选择与比对模块相同的物种,当然如果想要的物种没有储存在GFAP自带的数据库中时,可以去网站数据库下载想要的物种,然后将其放入到GO文件夹中(下载的文件不需要解压),当然,如果选择这种方式,则需要保证几个模块都是用了同一个物种的一套数据。然后选择保存位置并命名,点击“search”即可用GO IDs对基因进行注释而要进行后续分析则点击press按钮,它们的注释结果如下:
GO ID:
我的例子是以某植物的基因组蛋白文件进行的。大家可以想象,如果我手里的是转录组的数据(尤其是三代转录组数据,里面包含有蛋白序列),那么这个时候后面的ID可能就会向某些特定过程(比如热胁迫)聚集,那么只要将后面的ID 单独取出就可以进行富集方面的分析了。考虑到这种实际的需求,当你按下后面的press按钮时,就会在原有文件的基础上自动生成一个名字加了“-goformat”的文件,该文件只含有GO ID,如下:
它的输出结果就是GO ID,之所以将此提供给大家,那是因为该文件可以直接用在其他如软件或者网站上,例如REVIGO:
当然,我们的GFAP也可以进行统计以及绘图方面的操作。不过由于GO方面,REVIGO确实优秀,所以GO方面的绘图需要借助REVIGO进行,安心,这个网站速度很快。
它的输出文件是这样的:
下载好了这个文件后,还是要先格式化一下(有些GO ID似乎有些出圈,对这些ID,它会有一些额外字符,这些字符对绘图无意,所以去掉它):
格式化完成后,输入文件,选择一个颜色,然后在后面选择标题,这些基本的做完了之后,点击“draw”即可,结果类似这种:
之所以在这里需要同学们在输入一遍文件
那是因为做这种图有的时候,它的注释结果比较长,像这样:
这样作图不好看,所以建议同学们在格式化完成后的文件里对其功能名称进行一个大致的修订,只要保持意思相同应该就问题不大。修订好后再进行作图。
这个模块的另外功能是GO IDs的提取功能,在这里:
在一些组学测序中,同学们通常会遇到这么个情况:
这个是我转录组里的一些数据,而下游软件对GO的要求通常是一列(如上REVIGO),这个时候对于没有编程基础的同学来说,想要把文件中的GO进行整理,这真的是件太痛苦的事情。现在,我们来想办法解决它。从你的数据中把需要的信息放到新建的文件中,前一列是这么多的GO,后一列是对应的P-value。保存的时候保存成制表符格式。
然后在相应对话框中输入文件,点击“extract(2,3)”,接着文件就会变成这样:
终于规矩起来,但可以看到仍然有那么些不愿排队的,那就将它们单独处理一下就好~收工~~