注:读懂图片的主要方法是看懂横轴和纵轴。
1.1 热图
输入数据是数值型矩阵、数据框
颜色的深浅表示数值的大小,上方/左侧有聚类
分类:
①相关性热图:数值大小即为相关性高低;
②差异基因热图:有分组,一行是一个基因在n个样本中的表达量,一列是一个样本中所有基因的表达量;
一个基因在不同样本间的表达量差异才是重点(横着比较)
1.2 散点图&箱线图
散点图的横坐标index(数值下标),没有任何意义;每个点表示数据中某个列的某个值
箱线图:横坐标是分组(重复值),纵坐标是数值型向量。
单个基因在两组之间的表达量差异 —— 箱线图
多基因的差异分析:主要根据logFC和P.value;
log2(FC) = log(x)-log(y);(logFC取值无特定值,可以设为mean+2sd)
log(x) —— 处理组表达量的log值的平均值;
log(y) —— 对照组表达量的log值的平均值;
☞ logFC>0,treat > control,基因表达量上升;
☞ logFC<0,treat < control,基因表达量上升;
而上调基因和下调基因时指表达量显著上升/下降的基因:P值
P.value :P值越小,-log10(P.value)越大,差异越显著;
P.value值的范围:p <0.01
1.3 PCA主成分分析
主成分分析也称主分量分析,旨在利用降维的思想, 把多指标转化为少数几个综合指标(即主成分) 。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大
每个小点为一个样本,每个颜色为一个分组,大点为整组的中心点。小点与小点之间的距离表示相似性。
最完美的分组:各自分组无重叠,组内样本比较集中,组间距离大。
【补】横纵的Dim:主成分的占比。一般在别的统计分析中横纵坐标总共得占90%之上的才算有统计学意义的数据。但此处只需要观察两个分组间的差异即可。
1.4 火山图
主要用于展示基因表达水平差异。
输入数据: "logFC", "P.Value","change"
① change是定义颜色的,也可以不加;
② "logFC"(横轴), "P.Value"(纵轴)是差异基因分析产生的列。
横轴logFC:log2 fold change差异表达倍数,正负代表基因表达量的上下调,差异越大越靠近X轴边缘。
纵轴是P.Value经“-log10( )”处理的结果,理论上P值越小表示越显著,即y轴值越大就表示差异越显著。