【代谢组学】代谢组学原始数据的预处理

主要内容：

1. 原始数据预处理概述；

2. 主要分析软件汇总；

3. 数据预处理的方法。

1. 原始数据预处理概述

1.1 数据预处理及其目的

为什么要做数据预处理：代谢组学研究使用各种分析平台（主流是GC/LC-MS或NMR）从生物样品中提取代谢物数据。这些分析平台产生了大量复杂的数据。从这些数据中提取有用的信息需要一系列的数值处理，以将从仪器中获得的原始数据转换为可用于进一步统计分析的可用形式。

什么是数据预处理：这些通过一系列步骤（如降噪、基线校正、归一化等）转换原始数据的计算过程统称为数据预处理。

预处理的主要目的是：将原始数据中的所有相关信息提取到一个适合于化学计量分析的数据矩阵中。

1.2 数据预处理的重要性

数据预处理是代谢组学的一个挑战性领域。在某种程度上，预处理依赖于研究目的，不能有一个通用的方法。

正确的预处理是必不可少的，并且可能是决定您是否能够从数据中提取重要信息的因素。

大多数仪器供应商提供的软件工具可以完成一些预处理任务。然而，依赖于供应商的软件有其自身的局限性，通常会辅以其他开源或专有的数据预处理软件工具。

1.3 数据预处理的简要、一般过程

数据预处理的简要、一般过程

Note：一些步骤可能与特定的分析平台更为相关。

2. 主要分析软件汇总

2.1 软件汇总

软件汇总列表

3. 数据预处理的方法

3.1 数据格式的转换

为何进行数据转换：1）不同仪器类型获得的代谢数据不同；2）仪器生产商软件生成的数据不同；3）数据能够被拓展工具进行深入分析。

代谢组学研究的典型数据库包含数十或数百个谱，其中每个谱由数千个数据点组成。在代谢组学研究中，将数据以表格的形式呈现是很方便的，其中每一行对应于分析实验，每一列对应于该实验中的单个测量量，通常是单个谱峰强度。许多软件工具提供了从各种生产商文件格式导入数据的选项。

主要流程：1）在供应商软件中执行基本处理；2）使用第三方工具导入数据或直接从生产商软件导出数据；3）检查导入的数据，以确保源文件中的样本/研究名称、数据点数量和数据值是否与目标匹配。

3.2 降噪

数据过滤去除了随机噪音。去噪需要取决于分析平台和使用的仪器。例如，LC-MS数据包含化学噪声（来自缓冲液和溶剂）和随机噪声（来自检测器的电子噪声），可以通过分析软件中的各种信号处理技术消除随机噪音。

3.3 基线校正

基线的扭曲会影响化学计量分析和代谢物的定量。由于信号强度是参照基线计算的，基线校正不足会破坏数据分析。校正基线失真的方法有很多种，大多数算法都会计算一个合适的偏移量，然后从原始数据中减去该偏移量。其中一些是手动的，而另一些是自动的。自动化方法是高通量和客观性的首选方法。

主要方式：1）选择适当的算法/软件进行基线校正。2）目视检查所有处理过的光谱是否有伪影（重要！）。

基线校正示意图

3.4 去除不需要的光谱区域

在MR光谱中，可以有水信号（或其他溶剂）被去除以清除数据。此外，在样品制备过程中使用的化学品可能会产生污染，需要清除这些污染以避免系统性变化。不包含任何代谢数据的光谱区域也被移除以减少数据点的数量。

主要方式：1）目视检查光谱，寻找溶剂信号、污染物和空区。2）记下要删除的区域的列位置。3）从数据集中排除选定的区域。

3.5 去同位素（针对质谱）

由于自然界中的许多元素以不同的同位素形式存在，一个特定的分子可能产生一种信号模式，其强度和电荷质量比（m/z）反映其同位素分布。去同位素可以将同一化合物对应的同位素峰聚集在一起，并通过去除冗余信息简化数据矩阵。

3.6 峰值对齐

不同样品中的所有匹配峰或信号被对齐或分组在一起，以便对代谢物（特征）进行适当的比较。原始光谱数据中的匹配峰通常在其荷质比和保留时间上存在差异。

在核磁共振数据中，pH值、温度、仪器因素和盐浓度的变化影响峰位。校正这些峰的变化对于后续的统计分析是至关重要的。此外，正确的光谱比对对于可靠的代谢产物鉴定也是必需的。

峰值对齐示意图

主要方式：

1）目视检查光谱并寻找峰值位移。

2）使用免费（开源）的对齐工具或适合您的数据的专有解决方案。

3）关注具有一致和可预测行为的峰值或信号，并调整全局峰值偏移。这个过程也被称为参考，通常用核磁共振波谱来完成。

4）在执行全局校准后，建议进行目视检查，如果校准在整个光谱范围内是完美的，则可以完成该过程。

5）通常除了全局移位外，局部移位也可以由特殊的对齐算法来处理。

6）仔细检查对准算法的操作模式。值得注意的是，一些翘曲算法可能会影响峰面积，因此绝对量化可能会受到影响。

7）许多校准技术需要一个参考光谱，应注意选择代表整个数据集的光谱。尝试使用中位数或平均数，并使用效果最好的一个。参照物也可以选择为与剩余光谱具有最佳相关性（Pearson）的光谱。

8）校准后，通过绘制校准光谱图，通过目测评估光谱。

9）另一种评估比对（以及谱间相似性）的简单方法是比较比对前后谱的平均pearson相关系数。

3.7 分箱（Binning）

即使在峰对齐之后，数据中也可能有轻微的光谱偏移。数据分箱（也称为bucketing）可用于将给定小间隔内的数据值替换为代表值（例如，平均值）。这个过程也有助于减少数据点的数量。

在核磁共振数据中，样品特性（如pH值和盐浓度）的微小变化会导致采集信号的偏移。光谱特性的这种变化可能会导致数据分析中的重大误差。因此，在很难实现核磁共振波谱完全对齐的情况下，使用分箱是明智的。

分箱的主要缺点是丢失了原始谱中包含的信息。另一个可能发生的问题是，当一个信号被放置在箱子的边界时，会导致比原始光谱更多的伪影。有一些“智能”或自适应装箱技术可以减少由简单、固定分箱带来的一些误差。

主要操作方式：

1）将光谱加载到支持分箱的适当软件中。

2）设置所需的分箱宽度或分箱数量，以便它将信息从每个峰值收集到自己的分箱中，避免来自不同峰值的信号重叠。

3）在解释从基于分箱数据的多变量分析的载荷图（loading-plot）时，应注意避免对代谢物的任何错误解释。

3.8 峰的鉴别与定量

光谱数据中代谢物的识别或注释是代谢组学中的一个重要过程。这个过程包括确定m/z或time（MS）或ppm标度（NMR）上对应于特定代谢物的位置。对于MS数据，有几个软件工具和数据库来帮助鉴定代谢物。类似的数据库和工具也可用于核磁共振谱。

峰定量是根据信号的面积或高度计算代谢物（绝对/相对）量的基本过程。

主要方法：

a)有几款软件工具和数据库来帮助峰值识别和量化。根据使用的平台和要分析的样本类型选择最适合的分析工具。

b)确保参考信号（例如，在核磁共振谱中将DSS或TSP信号设置为零）并正确校正基线。

c)使用校准样品（已知代谢物浓度的样品）评估量化算法/软件的性能。

3.9 标准化（归一化）

样品之间的系统变化通过标准化去除。将规范化应用于每个样本的数据，以使它们彼此具有可比性。

其中一种常见的情况是样本权重或样本稀释度的差异对采集数据的影响，通过标准化可以最小化这种影响。

标准化技术的选择应该考虑样本的生物背景。

代谢组学数据有不同的标准化方法。最流行的技术之一是全积分标准化，即总光谱强度保持不变（面积标准化）。虽然这是一种很好的标准化技术，但当一些强信号在样本之间发生显著变化时，这可能是不准确的，其中概率商均一化可以提供更稳健的结果。

其他技术是对内部参考化合物的标准化，如肌酐和样品特定的标准化因子，如样品重量或样品体积。

归一化示意图

主要方法：

a)将数据导入适当的软件包进行预处理。确保数据的格式正确。检查软件文档，确保数据的方向正确，因为归一化算法必须对每个样本进行计算。（通常宏代谢组数据矩阵的排列方式是每一行代表一个样本，因此规范化是一个行操作。）。

b)绘制均一化前后的数据，并目视检查是否有失真。

c)如果使用面积归一化，则归一化光谱的积分之和应为常数，这可以在处理的数据上得到验证。

d)如果使用内部参考物，绘制光谱图并检查所有样本的参考峰强度是否相同。

3.10 数据缩放（转换，Scaling）

转换操作是对所有样本的每个光谱强度执行的，通常是一个列操作，这使得代谢组数据的列剖面（特征量）更具可比性。

适当的转换有助于减少噪音背景并改善数据的信息内容，而不适当的转换可导致投影与不需要的数据部分致使与生物因素无关，从而可能在进一步的数据分析中导致错误的解释。

数据转换技术的选择需要根据考虑数据的性质。在核磁共振数据上使用自动转换可以提高背景噪声区域，给后续的数据分析带来困难。

一些缩放技术是自动转换、pareto转换、范围转换和log转换。

数据中心化（Center scaling ）是从代谢组学数据中减去每个变量（沿着数据列）的平均值的过程。

这导致数据的列平均值为零，通常称为平均居中。这是在主成分分析之前进行的，以便所有主成分都以数据的质心为原点。

Center scaling

主要方法：

a)将数据导入到适当的软件包中进行预处理，就像在归一化的情况下一样。确保数据的格式和方向正确。数据转换是一个列操作。

b)选择最适合您的数据的转换算法。在某些软件包中，自动转换是默认选项。如果使用自动缩放，请检查您的数据是否适合这种情况。

c)通过主成分分析检查转换操作前后的得分图，检查转换效果。