生信笔记14-转录组下游分析之:WGCNA

WGCNA是什么

WGCNA全称为weighted gene co-expression network analysis,译为加权基因共表达网络分析。WGCNA分析方法的目的是寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及寻找网络中的核心基因

WGCNA的适用分析数据

WGCNA分析适用于复杂的数据模式,WGCNA官网建议至少15个样品进行分析(https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/faq.html)。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

WGCNA分析原理

从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,是从转录组数据中挖掘基因模块的算法。如果某一类基因在不同的发育阶段或者胁迫处理的不同时间点表达模式变化相似,那么就可以把他归成一个模块(module),认为这些基因在功能上是相关的。

WGCNA分析主要包括基因之间相关系数计算、基因模块的确定、模块与性状关联、提取关键候选基因四个步骤。

1.基因相关系数计算

WGCNA第一步计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。传统方法上,描述两个基因间的关联程度,可通过计算表达值间的Pearson、Spearman等相关系数获得。为了构建关联网络,通常指定一个筛选阈值,如相关系数大于0.8以上,作为两个基因间具有强关联程度的依据。但是基于固定阈值法的缺点在于,阈值是人为定义的,将会忽略很多潜在关联。例如,0.79就是不相关吗?同时,这种一刀切的方法也会丢失基因的变化趋势信息,将难以在网络中描述相关性的强弱关系。为了解决这些问题,提出了“加权”的思想。WGCNA的做法是对基因表达值之间的相关系数取β次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),直接结果是把基因间相关性的强弱的差异放大。这样做的好处是使强弱关系更为分明,有利于后续聚类(模块)识别。

判断β合适的方法:

在取了一定的β参数之后,具体计算度数为k的节点个数的对数值log(k),与该节点出现的概率的对数log(p(k))呈现负相关,一般会设置相关系数大于0.8。

判断β合适的方法

参数β取值默认是1到30,上述图形的横轴均代表权重参数β,左图纵轴代表对应的网络中log(k)与log(p(k))相关系数的平方。相关系数的平方越高,说明该网络越逼近无网路尺度的分布。红线处对应的的β值即为本次最合适的β值。

2.基因模块确定

第二步通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块(module)。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。下图总Dynamic Tree Cut代表根据相关性初步划分的模块,下面的颜色模块Merged danamic 代表的是合并相似模块后的结果。

模块层次聚类树图

3.模块与性状关联分析

  • 模块间的相关性分析

模块特征值(Epigengene):模块内所有基因进行主成分分析(PCA),第一主成分的值即为Epigengene,它代表该模块内基因表达的整体水平(表达模式),可以把模块看成基因,那么模块特征值就可以看作这个基因的表达值。

根据模块与模块间特征值的相关性绘制模块间相关性热图。热图可分为两部分,上部分根据模块特征值(eigengene)对模块进行聚类。纵坐标代表节点的相异程度,每一个模块用不同的颜色表示;下半部分图形中横坐标和纵坐标分别代表不同模块,不同颜色用不同模块来表示。中间的每个方块代表模块与模块的相关性,方块颜色越深(越红),相关性越强;方块颜色越浅,相关性越弱。

image.png

样品与模块的相关性分析

根据模块特征值与样品进行相关性分析。如果模块在样品中特征值正或负表达较高,说明该模块与这个样品密切相关。

样品和模块间相关性热图,横坐标代表不同样本,纵坐标代表不同模块。中间的每个方块代表样品与模块的相关性,方块颜色越红,相关性越强;方块颜色越蓝,相关性越弱。可以根据样品与模块的相关性筛选样品关键模块。

  • image.png

4.提取关键候选基因

通过样品与模块相关性分析筛选到关键模块后,该模块中还有上百条基因。那么哪些是跟样本最相关的基因呢?可以通过筛选核心基因来确定关键基因。连通性是指一个基因与其他基因的连接程度(通常只在模块内计算),常称为connectivity或degree,或用数字k表示。一般而言,在一个模块中,连通性(k值)排名靠前的基因可认为核心基因(hub gene)。在下表中可以通过查看kWithin值大小来判断核心基因。

image.png

得到模块内的核心基因后往往还会挑选模块内与核心基因相关的其他基因。可以通过模块网络节点关系来筛选。下表中前两列是对应的两个基因,第三列weight代表两两基因的连接强度。一般认为大于阈值(默认是0.15)的两个基因才认为是相关的。可以通过筛选大于阈值的两两基因的关联度来筛选与核心基因相关的其他基因。


参考

https://zhuanlan.zhihu.com/p/555503030

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容