muma-代谢组学单变量和多变量统计分析R包

title: muma-代谢组学单变量和多变量统计分析R包
date: 2019-02-23 21:38:55
tags: [单变量, 多元统计, R包]
categories: 代谢组学

文章截图

导读

代谢组学和其它组学数据类似，也是多维的，所以分析起来不是那么清爽。这篇文章的作者开发了一个R软件包muma (metabolomics univariate and multivariate statistical analysis)，简单实用且高效，并且对于R语言初学者来说偶比较容易上手。这个包的涉及代谢组学数据分析过程如是说：PCA分析和（O）PLS-DA，组间差异检验等常见的分析.

如何运行muma软件

我们先看下如下的流程图

muma软件流程图

文件准备

文件准备如下图所示

第一列为样品名，不能有重复
第二列是样品分组
第三列以后接的就是代谢物变量

文件准备

流程解读

1 | 创建工作文件夹

library(muma) # 加载muma包
setwd("D:\\R\\R-exercise\\muma")
work.dir(dir.name="WorkDir") #创建名为WorkDir的文件夹用于存放后期分析的结果

2 | 开始分析

2.1 | muma分析的第一步从函数explore.data()开始，这个函数的主要功能就是数据的预处理（pre-processing）和数据探索。其基本用法如下：

> explore.data(file="YourFile.csv", scaling="ScalingType", scal=TRUE, normalize=TRUE, imputation=FALSE, imput="ImputType")

2.2 | 这个函数执行的结果是可以产生三个新的文件夹

"Group"，这个文件夹存放的是每个组的样本数据，因为刚开始输入的表中class列指定了分组；
"PCA_Data_scalingused"，这个文件存放的是主成分分析得到的score值和loading值矩阵，以及与PCA-相关的图表，注意：这个文件夹的名称根据你用的scaling的方法不同而不同
"Preprocessing_Data_scalingused"这个文件夹存放的是存放的是预处理前的所有的文件和数据集

2.3 | 实例运行

explore.data(file = "MetaBc.csv", scaling = "pareto", scal = TRUE, 
imputation = TRUE, imput = "mean")

这一步做了如下这些事：
1）读取了数据表，以及将可能存在的负值转为数值0。
2）我们可能读取的数据表是含有缺失值的，该函数的imputation参数值默认为FALSE，但是如果设置为TRUE就可以通过指定填充的方法，这里有四种填充的方式：a. 平均值，一般就是用这个变量在所有个体中的平均值作为缺失值的填充值；b. 最小值；c. 最小值的一半；d. 用数值0作为填充值
3）另外，如果某个变量在大于80%的个体中都是缺失的话，那么默认会把这个变量给删除
4）接下来就是对数据进行标度化处理，这里也介绍了常见的5种方法：a. pareto scaling（柏拉图标准化，与标准差标准化类似，但是区别就是除的是标准差的平方根）；b. auto scaling（又叫单位方差标准化，标准差标准化，Z-core标准化等，具体实施方法就是变量减去平均值后再除以标准差，得到均值为0，标准差为1的数据结构）；c. vast scaling（在auto scaling的基础上乘以平均值和标准差的比值）；d. range scaling（就是最大值最小值标准化，每个变量减去平均值后除以最大值减去最小值的差）；e. median scaling（和range scaling类似，只不过不是减平均值，而是减去中位数）

常见的代谢组学数据预处理方法

5）最后一部分是该函数还进行了PCA分析。默认产生包含1个主成分的PCA图和scree图

PCA图

Screeplot

3 | 主成分分析

前面我们已经选择了数据的标准化方法，并且发现前面两个组成分就可以解释数据大部分的差异，因此选择前两个主成分作图

Plot.pca(pcx=1, pcy=2, scaling="pareto", test.outlier=TRUE)

注：由于个人认为这个软件做出的图并不美观，因此后续只展示数据分析代码及部分原理

4 | 单变量分析

muma包提供了几种单变量统计分析方法，如进行数据的正态性检验，组间两两比较的方法Welch's t Test和Wilcoxon Mann-Whitney test，并且会产生相应的文件夹。

univariate(file="MetaBc.csv", imputation=TRUE, imput="mean", 
normalize=TRUE, multi.test=TRUE, plot.volcano=TRUE)

4.1 | 除了组间两两比较的结果（会采用多重检验对P值进行校正），还提供了组间倍数和火山图的结果，以及箱线图的结果。

5 | 合并单变量和多元统计分析结果

这里通过函数Plot.pca.pvalues不仅可以将PCA的loading图展示，还可以突出显示至少在两组组间差异显著的变量。

Plot.pca.pvalues(pcx=1, pcy=2, scaling="pareto")

PCA图上显示组间差异显著的变量

6 | （正交）偏最小二乘判别分析（(O)PLS-DA）

前面PCA分析是非监督多元统计分析，但是PCA的一个缺点就是当组间差异远大于组内差异的时候才会得到比较理想的结果，如果没有目标导向性的实验设计，那么可能影响的因素就会特别多，此时可以采用有监督多元统计分析模型PLS-DA和OPLS-DA方法。muma包也嵌入了这两种模型分析函数

6.1 | PLS-DA

plsda(scaling="pareto") # 这里不需要设定其它参数
Plot.plsda(pcx=1, pcy=2, scaling="pareto")

6.2 | OPLS-DA

oplsda(scaling="pareto") # 这里不需要设定其它参数
Plot.oplsda(pcx=1, pcy=2, scaling="pareto")

结语

现在关于代谢组学数据分析的软件（包括在线的和本地安装的，不同编程语言的）层出不穷，但是万变不离其宗。还是要根据自己的实验目的来选择最契合的统计方法。

参考

[1] muma, An R Package for Metabolomics Univariate and Multivariate
Statistical Analysis

最后编辑于：2019.02.23 23:54:30

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

muma-代谢组学单变量和多变量统计分析R包

导读

如何运行muma软件

文件准备

流程解读

结语

参考

推荐阅读更多精彩内容