转录调控专题 | WGCNA-加权基因共表达网络分析

近年来，很多SCI高分文章中都使用了WGCNA分析，那么其分析原理究竟是什么，它可以应用于哪些研究方向，又如何从WGCNA分析结果中挖掘有意义的数据呢？现在就带着这些问题，跟着小编一起学习探讨吧！

WGCNA概念

WGCNA ，全称为weighted gene co-expression network analysis，即加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module)，并探索基因网络与关注的表型之间的关联关系，以及网络中的核心基因。

WGCNA分析基于两个假设：

1. 相似表达模式的基因可能存在共调控、功能相关或处于同一通路;

2. 基因网络符合无尺度分布

简单举例解释就是样本之间的各个基因是否存在共同表达的模式，例如基因A和基因B是否在某一个阶段中存在相同的表达模式——两者同时上调表达或下调表达。这个方法就是利用这样的思路将样本中基因表达进行分析，探究基因间是否具有共表达的现象，并且根据一定的数值给某一团共表达的基因划分成一个模块，这样聚在一起的不同的团的基因就划分为不同的模块。例如关于调控花青素合成的基因可能就会聚类在同一个模块里面，关于调控叶绿素合成则可能会聚类在另一个模块里面。但是，WGCNA的分析还不止于此，它还可以利用这些模块和表型数据进行聚类，找到这个模块中的核心基因（权重较高的一些基因），也就是hub gene。

WGCNA适用范围

WGCNA一般适合于复杂的转录组数据，推荐5组（或者15个样品）以上的数据。

应用的研究方向主要为：不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

WGCNA术语

在WGCNA分析中有很多相关专业术语，乍看之下可能会让人一头雾水，但其实本质并不复杂，为了后续更好地解读结果数据，就让我们从了解专业术语开始吧！

Co-expression network（共表达网络）：undirected, weighted gene networks，其点代表基因，边代表基因表达相关性，加权(weighted)是指对相关性值进行幂次运算。

Connectivity (连接度)：类似于网络中 “度”(degree)的概念，用字母k表示。每个基因的连接度是与其相连的基因的边属性之和。

Module(模块)：高度內连的基因集。在无向网络中，模块内是高度相关的基因。

Module eigengene E(模块特征值)：模块内所有基因进行主成分分析（PCA），第一主成分的值即为Epigengene。它代表该模块内基因表达的整体水平。

Module membership：给定基因表达谱与给定模型的eigengene的相关性。

Hub gene：关键基因 (连接度最多或连接多个模块的基因)。

TOM (Topological overlapmatrix)：把邻接矩阵转换为拓扑重叠矩阵，以降低噪音和假相关，获得的新距离矩阵，这个信息可拿来构建网络或绘制TOM图。

基本原理及方法

WGCNA主要有以下四个步骤：

第一步：构建基因网络；

第二步：分层聚类构建基因模块；

第三步：筛选关键模块

第四步：鉴定关键基因

第一步：构建基因关系网络

基因间相似性（similarity）：根据基因在不同样品中的表达情况，用Pearson相关系数计算任意两个基因之间的相关系数（Person Coefficient）。

为了衡量两个基因是否具有相似表达模式，一般需要设置阈值来筛选，高于阈值的则认为是相似的。但是这样如果将阈值设为0.8，那么很难说明0.8和0.79两个是有显著差别的。因此，WGCNA分析时采用相关系数加权值，即对基因相关系数取N次幂，使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks)，这种算法更具生物学意义。

软阈值(soft-thresholding)：

β值选取：powers <- c(c(1:10), seq(from = 11, to = 20, by = 1)

sft <- pickSoftThreshold(datExpr, powerVector = powers, verbose = 5)

左图横轴均代表权重参数 β，左图纵轴代表对应的网络中 log(k)与 log(p(k)) 相关系数的平方，红线是此次 WGCNA 分析对应的软阈值和相关系数。相关系数的平方越高，说明该网络越逼近无网路尺度的分布。

为什么要对2个基因的相关性系数进行幂运算？

基因相关系数经幂函数处理后，少数强相关性不受影响或者影响较小，而相关性弱的取n次幂后，相关性明显下降。如图，对相关性值进行12次幂的运算，数值较小的回趋向0，随着数值大的增大，结果也快速增大。对两个基因的相关系数进行β次幂运算强化了强相关，弱化了弱相关。使基因间的连接网络转化为无尺度网络。前人证明，基因网络接近无尺度网络。

第二步：分层聚类构建基因模块

动态混合剪切法

利用基于TOM值的相异度构建层次聚类建树；建树方法：动态剪切树和静态剪切树。

聚类树的不同分支代表不同的基因模块，不同颜色代表不同的模块。基于基因的加权相关系数，将基因按照表达模式进行分类，将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块，是一个提取归纳信息的过程。

图模块层次聚类树图

第三步：筛选关键模块

1）根据表达模式分析

我们根据模块特征值（Epigengene，对模块内所有基因进行主成分分析，第一主成分的值即为Epigengene）来计算代表该模块内基因表达的整体水平。如果某模块在样品中特征值的正或负表达较高，说明模块与这个样品关系紧密。

2）模块与样本（表型）相关性

通过计算样本与模块间相关性，我们查看具体那些模块基因与我们关注样本处理紧密相关，从而筛选出重点模块。

3）依据目标基因筛选模块

依据研究目的、前期研究结果和已发表文献，有重点关注的目标基因，可直接筛选目标基因所在的基因模块重点进一步分析。

第四步：鉴定关键基因

TOM值（模块调控系表中的weight值）大于阈值（默认是0.15)的两个基因才认为是相关的，然后计算每个基因的连接度。即先筛选有足够强度的关系，然后计算连接度，连接度越强，说明越处于核心地位；

连接度Connectivity(degree)-连接度：与某个基因连接的所有其他基因的总和，即描述一个基因与其他所有基因的关联程度，一般用K值表示，即我们可以根据K值考前的基因确定hub核心基因。

以上就是WGCNA的分析原理部分，接下来让我们一起结合转录组的WGCNA分析结果来看一下吧。

结果解读

R包分析路径结果中主要有以下文件：

从上面介绍的原理和方法中，可以看出，我们重点关注及挖掘数据主要在“3.模块特征及表达模式”及“4.调控网络文件”。

下面我们重点介绍下主要结果

1. 模块层次聚类

WGCNA分析会根据基因间表达量的相关性构建聚类树。图中上半部是网络中的基因聚类树，一个树叶就是一个基因，不同基因模块便是这棵树的树枝。中间部分 Dynamic Tree Cut 是使用动态剪切法获得不同的模块图,其中不同的颜色代表不同的模块。底部 Merged colors 是将相异性系数小于 0.25 的模块合并后的图,其中不同的颜色代表合并后的模块。

2. 模块基因聚类热图

随机选择 1000 个基因画拓扑重叠热图，每一树状图代表一个模块，每一个分支代表一个基因，每个点的颜色越深（白→黄→红）代表行和列对应的两个基因间的连通性越强。

3. 模块与模块之间的相关性热图

该图可分为两部分,上部分是根据模块特征值进行的聚类,通过提取每个模块的特征向量基因作为某一特定模块第一主成分基因,也代表了该模块内基因表达的整体水平，然后对不同模块的特征基因进行了层次聚类，纵坐标的数值是反应的是不同模块间的相似度，越小表示两个模块间相似度越高。下部分是不同模块间的聚类热图，图中每一行和列代表一个模块。方块中颜色越深（越红），相关性越强；方块颜色越浅，相关性越弱。

4. 模块与样品的相关性热图

横坐标为样品，纵坐标为模块，每个格子的数字代表模块与样品的相关性，该数值越接近1，表示模块与样品正相关性越强；越接近-1，表示模块与样品负相关性越强。括号里的数字代表显著性 P value，该数值越小，表示显著性越强。

5. 模块内基因表达模式图

该图结果可分为两部分查看，表头注释为模块名，上图左侧为基因名，横坐标为样本名，上图为模块中基因在不同样本中的表达量热图，红色为高表达，绿色为低表达，通过上图可直观看出模块中的基因在不同样本中的表达趋势。下图为模块特征值在不同样本中的表达模式，横坐标为样本名，通过下图柱状图的展示，可直观看出哪个样本中的 gene 在该模块下普遍高表达。

6. 各模块基因关系节点文件

模块网络节点关系文件，是每个模块内基因之间相互关联的文件，fromNode是源节点，toNode是靶节点，weight是邻接矩阵的边权重，代表两个节点(基因)之间的连接强度，数值越大代表两个节点(基因)紧密联系或共同表达；direction是连接的方向性，fromAltName和toAltName分别是fromNode和toNode对应的gene_symbol名，需要提供对应的注释文件，否则为NA。

我们可以使用Cytoscape软件利用关系节点文件weight值（TOM值）来绘制网络图。

以上就是WGCNA分析相关内容介绍，今天的分享就到此结束啦，希望本次的分享可以帮助到大家更好地理解WGCNA分析。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,456评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,370评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,337评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,583评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,596评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,572评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,936评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,595评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,850评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,601评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,685评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,371评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,951评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,934评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,167评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,636评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,411评论 2赞 342

转录调控专题 | WGCNA-加权基因共表达网络分析

WGCNA概念

WGCNA适用范围

WGCNA术语

基本原理及方法

第一步：构建基因关系网络

第二步：分层聚类构建基因模块

第三步：筛选关键模块

第四步：鉴定关键基因

结果解读

推荐阅读更多精彩内容