WGCNA有了相关性矩阵为什么还要计算拓扑矩阵?
把邻接矩阵(Adjacency Matrix)变成了拓扑重叠矩阵(Topology Overlap Matrix)
邻接矩阵(Adjacency Matrix)
逻辑结构分为两部分:V和E集合,其中,V是顶点,E是边。因此,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,这个二维数组称为邻接矩阵。邻接矩阵又分为有向图邻接矩阵和无向图邻接矩阵(简单地来说就是有方向和没方向)。
简单理解就是两个事物有相关关系,关系用边表示,两个事物用点表示。许多个点和边的这种关系组成矩阵,只有两个事物有直接的关系,边才会出现,所以是邻接。
邻接矩阵的计算:
拓扑重叠矩阵(Topology Overlap Matrix)
Topological overlap matrix(TOM,拓扑重叠矩阵):把邻接矩阵转换为拓扑重叠矩阵,以降低噪音和假相关,获得的新距离矩阵,这个信息可拿来构建网络或绘制TOM图。具体公式为:
为什么还要使用拓扑重叠矩阵?
通过表达的邻接矩阵,我们可以探究单个基因与单个基因之间的相关关系,但是很明显一个基因可能会和多个基因之间产生互作。所以我们在对两个基因之间的互作进行评价的时候,也需要考虑其他和他互作的基因。
研究者通过和其他基因间相关性的乘积之和来体现。
于是通过聚类我们得到了下面的图:
当我们构建完拓扑重叠矩阵之后,我们需要识别基因模块。
WGCNA分析是如何找出基因模块的?
通过层次聚类,这里我们不得不谈到几个切割方法:静态切割,动态切割。
静态切割:
直接画一条线,切割得到的四个结构分支对应得到四个基因模块。
动态切割:
从下往上切割,先得到小的分支,分支相同就合并,分支不同继续向上切割。
如果碰到模棱两可的基因就用K均值聚类的升级版,PAM方法,区别是PAM对异常值不敏感。融合了PAM方法的动态切割方法称为 动态联合PAM(Dynamic hybird)法。这里值得注意的一点是,纯PAM法会把基因强行归类,所以要结合动态一起用。
另外一个需要介绍的参数是deepSplit :切割强度,越大得到的模块越多。所以当觉得自己模块不够多的时候,可以设置一下切割强度。