基础理论
网络图
网络图非常常见,不仅被用在生物信息学分析,在生活中也很常见,如民航航线图、食物链、基因调控网络都是网络图经典的例子。
网络图应用价值
- 直观形象的呈现数据关系
- 高效的挖掘和解析数据(WGCNA后模块内大量基因的筛选)
网络图的构成基础
- 节点(node):表示元素
节点属性:大小、形状、颜色、标签、边框可以表示表达量、差异倍数、RNA类型、pathway分类、基因名称等。 - 线(edge):表示元素之间的关系
线属性:粗细、类型、颜色、方向可以表示:相关性强弱、相关性正负、靶向关系、相关性显著性等。
重要概念
- 连通性(Degree):一个节点拥有的线的数量。
- 核心元素(Hub gene):位于调控网络中心,也就是连通性较高的元素。
数据准备
建立关联
- 基于已有成果获得。(string数据库)
- 基于表达量/丰度的相关性。(WGCNA)
- 基于序列的碱基互补关系。(miRNA-mRNA)
- 基于功能分类关系。(富集分析)
数据要求
格式:
tsv文件(Tab Separated Values)
csv文件(Comma )
xls,xlsx文件-
内容:
edge文件:必须文件,包含节点关系关键数据。如下图所示,第一列为起始点的基因名,第二列为终止点的基因名,第三列为TOM值(这个数据是WGCNA的数据结果,因此我用了TOM值,也可以是其他的数据,如两点间相关性。)WGCNA分析有点复杂,有朝一日我整理好后再发给大家参考。
node文件:非必须,按需准备。如下图所示,第一列是点的基因名,注意对应edge文件中的点的信息,我下图展示的是我给每个基因Ensembl ID添加的Gene Symbol信息和注释信息,也可以是其他的数据,如基因的表达量等。
软件基本操作
数据导入
-
导入edge数据
点击下图所示的按键,导入edge数据。
导入后需要选择每一列的数据类型,主要设置边的起始位置和结束位置。
-
导入node数据
点击对应位置,导入node数据,要确保数据和edge数据的命名一致。
生成网络图
导入edge后,在图片编辑框中就可以看到生成的最基础的网络图,我们下一步需要做的就是对它进行美化,也可以进一步通过Cytoscape进行数据挖掘。
图片美化
对于最初版的网络图,我相信没有人会觉得好看,也绝对满足不了杂志的要求,那么,我们就动手美化它。
其实Cytoscape的可视化界面非常人性化,按照我下面的批注,大家都点一点,应该很快就能掌握。
需要特别解释一下“参数赋值”和“点/线排列形式”的用法。
- 参数赋值:比如,想要用圈的大小表示基因的连通性大小、圈的颜色表示基因的表达量高低、线的粗细表示权重值的大小等,都可以通过给各个区域赋值达成。在Cytoscape中,点和线的颜色、粗细都可以赋值,点击相应的参数,赋予你想要展示的数据即可。
- 点/线排列形式:在Cytoscape中,所有的点都是可以自己手动拖动的,当数据量很大时,非常辛苦。因此,软件有自动排布功能,点击“layout”就可以看到,自动排布形式主要有:矩形排布、圆形排布、层级排布,每一种都有适用范围,如果展示基因相互关系建议用圆形排布,点一下试试就知道。
Tips:选择数据点后(手动选择结合下面要说到的筛选选择),再点击排布,就可以把杂乱无章的图,变得整齐且能说明问题,如下图所示。
数据挖掘
Cytoscape的数据挖掘主要是用到“筛选”工具。网络图常见的筛选方式是利用连通性筛选关键基因,Cytoscape可以直接计算点的连通性(K),点击菜单栏Tools--NetworkAnalyzer--Network analysis--Analyze Network,然后选择自己数据对应的类型(有/无方向),点击确认,连通性数据就会出现在“点信息页”,列名为“degree”。
点击筛选模块,新建筛选条件,在下拉菜单中选择“degree”,即可用连通性作为筛选条件,选择满足连通性要求的点。如果图片中点和线特别多,可以用该方法选择连通性较高的点新建画布,只对这些连通性高的基因做图。当然,筛选条件不仅仅是K值,也可以用WGCNA分析里的TOM值,或者基因的表达量等,只要是数值型变量就行,大家尝试一下就明白了。