图形解读的一般原则:从图的基本构造入手,拆解图的横轴代表什么、纵轴代表什么、几何对象如点、线、柱代表什么和对象的属性如颜色大小代表什么,理解了各个部分,再整体解读图中的差异。
热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。
热图基本解读
热图通过将数据矩阵中的各个值按一定规律映射为颜色展示,利用颜色变化来可视化比较数据。当应用于数值矩阵时,热图中每个单元格的颜色展示的是行变量和列变量交叉处的数据值的大小;若行为基因,列为样品,则是对应基因在对应样品的表达值;若行和列都为样品,展示的可能是对应的两个样品之间的相关性。
数字映射到颜色可以分为线性映射和区间映射。线性映射是每个值都对应一个颜色,区间映射是把数值划分为不同的区间块,每个区间块的所有数字采用同一个颜色显示。两者没有优劣好坏之分,具体使用取决于展示意图。
来源:https://datavizcatalogue.com/methods/heatmap.html
在使用颜色可视化数值表格的基础上,热图可以增加行和列的色块展示相关的行或列注释信息,如展示样品的取样部位、取样人、样品性别等属性,样品聚类热图配合样品来源的批次信息是初步判断样品受批次效应影响程度的一个方式,如下面宏基因组菌群图谱热图所示。
OTU丰度随生长期变化热图
下图是刘永鑫老师发表的一篇封面文章 水稻微生物组时间序列分析中的一副热图,展示了不同菌在不同生长时期的丰度变化模式。
从横轴的注释和标记可以看出,每一列对应于采样时水稻在田地里的生长天数;
从纵轴的文字可以看出,每一行是一种关注的菌。
每个框的颜色代表对应菌群在对应采样时间的丰度信息。
从图例可以看出,丰度值采用按行归一化 (scale
)之后的相对表达变化(Z-score
)进行展示。
Z-score
是常用的数据归一化方式,用来展示数据相比于均值上调或下调了多少倍的标准差 (X-mean)/SD
。此处反应的是OTU
的相对丰度变化。通常采用Z-scaore
而不是绝对表达量进行热图展示是为了更好的反应变化趋势,也是为了规避数据表中数值区间变化较大时导致的热图中颜色分配不均匀和颜色区分度变弱的影响。在R语言 - 热图美化中讲述过其如何获得和用途是什么。
原文描述:
Heatmap showing the relative abundances of the top 23 age-predictive biomarker bacterial classes against rice residence time in the field.
来源文章链接:
http://engine.scichina.com/publisher/scp/journal/SCLS/61/6/10.1007/s11427-018-9284-4?slug=fulltext
Metaphlan2获得的宏基因组物种丰度图谱
图中每一行代表一种菌或菌群,每一列是一个样品。从整体来看,图中大致有4
个比较亮的区域代表在对应样品中表达丰度高的4
个菌群集合。结合列层级聚类图来看,4
个高丰度菌群集合分别来自于4组样品(对应于分支图的蓝、绿、红、黄)。最左侧蓝色分支所在大支构成复杂一些,可能是样品异质性导致。
列注释还展示了样品的属性信息包括Visit number
, Body site
, Gender
, Dataset
。从图中可以看出,不同数据集来源的数据在聚类后分布均匀,没体现出数据来源偏好性即可以认为批次效应影响不大。性别的影响也不大。Body site
的分布与聚类相似度比较高,对于这个的解释需要看原文-MetaPhlAn2 for enhanced metagenomic taxonomic profiling中图形标题和正文的描述了。
原文描述:
MetaPhlAn2 characterization of all skin shotgun metagenomes available to date from the HMP and newly sequenced samples.
来源文章链接:
https://www.nature.com/articles/nmeth.3589?proof=true
样本相关性热图
样本相关性热图为对称热图,每个单元格代表一个相关性值,具体是哪种类型的相关性可从图例 (Legend
)获取。一般结合层级聚类展示,样品相似度高的聚在一起。同时标记样品自身的分组、处理信息,查看样品聚类结果是否与生物分组吻合、差别在哪、各个生物重复的一致性怎么样、各个生物重复是与自己组的样品一致性高还是与其它组样品一致性高,这些可以反映处理的批次的影响和样品质量的好坏。
下图来源于一篇Cell文章 ——Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h,其主旨是比较不同品系小鼠对基因表达和转录因子结合研究的影响差异有多大。图中展示了不同品系小鼠的野生型和KLA处理组基因表达谱Spearman
相似性热图。从对角线处的16-宫格可以看出,小鼠品系比处理方式对表达量的影响更大。
原文描述:
Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h.
来源文章链接:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6003872/
OTU与表型相关性热图
下图展示的是糖尿病人的菌群(OTU
)和检测指标之间的Spearman
相关性。
每一列代表一种菌,每一行是一个临床检测指标。
蓝色是负相关,红色是正相关。
写文章时就可以看图说话,解释为什么一些菌跟一些指标正相关,跟其他指标负相关,其潜在生物影响和意义是什么。
方格中标记的数值代表P-value
。
原文描述:
Association between differentially abundant OTUs and clinical biomarkers relevant for diabetes in the total group of 268 individuals. The taxa names indicate the lowest taxonomic affiliation available for the OTUs in the Greengenes database.The colour key indicates Spearman’s ρ and the numbers in the cells represent p values <0.05. Spearman’s ρ and associated p values.
来源文章链接:
https://link.springer.com/article/10.1007/s00125-018-4550-1#Fig3
GSEA富集结果的热图展示
GSEA富集分析有其经典展示方式,具体见一文掌握GSEA,超详细教程。但如果要展示的富集条目很多,样品也很多时,热图不失为一个很好的方式。
热图中每一行代表一个富集的GO条目,每一列为一种癌症样品;
颜色表示标准化富集分数(normalized enrichment score
)(也可以展示表示富集显著性的FDR值)。
GSEA富集是针对每个癌症样品中的基因与Myc/MycN表达的相关性进行的分析。
考虑到多重假设检验的问题,在GSEA分析前,先对GO条目根据其包含的基因集的重合度进行了去重。
(保留的条目基因集重合小于75%) 。
原文描述:
Heatmap shows clustering of tumor types based on top 100 most positively correlated gene sets from gene ontology molecular function category for MYC. the heatmap is colored by the normalized enrichment score of a gene set for a tumor type. Gray cells indicate lack of enrichment. Dots below tumor type denote high MYC amplification, while plus signs denote high mRNA expression. Blue lines on the heatmaps mark gene sets corresponding to the canonical MYC signature, orange lines correspond to the non-canonical MYC signature, and yellow lines correspond to neuronal function, found in MYCN only. Tables contain main gene sets found in each cluster category. One asterisk marks a WNT signaling gene set, and two asterisks mark a metabolic gene set.
来源文章链接:
https://www.sciencedirect.com/science/article/pii/S2405471218300978#fig6
热图绘制
统计图就是把数据映射到几何形状如点、线、柱的美学属性如颜色、大小、形状上。这是理解图的关键,也是画图的关键。热图绘制需要的数据与最后呈现的热图一般是一致的,数据中每一行对应于热图中每一行,数据中每一列对应于热图每一列。如果做了聚类分析,顺序可能会变。