MOGONE
第一个利用图卷积网络(GCNs) 进行组学数据学习以对新样本进行有效类别预测的有监督的多组学集成方法。
MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification
一个用于生物医学应用中分类任务的多组学数据分析框架。MOGONET 在标签空间上将组学特定学习与多组学综合分类相结合。具体来说,MOGONET 利用图卷积网络(GCN)进行组学特定的学习。与全连通神经网络相比,GCN 既利用了组学特征,又利用了相似网络描述的样本之间的相关性,从而获得了更好的分类性能。MOGONET 除了直接连接每个组学数据类型的标签分布,还利用视图相关发现网络(VCDN)探索标签空间的交叉组学相关性,以实现有效的多组学集成。MOGONET 是第一个利用 GCNs 进行组学数据学习,对新样本进行有效类别预测的有监督的多组学集成方法。我们通过广泛的生物医学分类应用,包括阿尔茨海默病患者分类,低级别胶质瘤(LGG)的肿瘤分级分类,肾癌类型分类和乳腺浸润癌亚型分类,证明了 MOGONET 的能力和多功能性。我们还通过综合的消融研究,说明了整合多种组学数据类型的必要性,以及将 GCN 和 VCDN 结合起来进行多组学数据分类的重要性。此外,我们证明 MOGONET 可以识别与所研究的生物医学问题相关的重要组学特征和生物标志物。
比如能利用三种组学数据(即 mRNA 表达数据、 DNA 甲基化数据和 miRNA 表达数据)进行分类,以提供关于疾病的全面和互补的信息
txWang/MOGONET: MOGONET (Multi-Omics Graph cOnvolutional NETworks) is a novel multi-omics data integrative analysis framework for classification tasks in biomedical applications. (github.com)
Single-cell multiomics: technologies and data analysis methods
单细胞多组学分析的基本特征包括: (1)用于单细胞分离,条形码和测序的技术,以测量来自单个细胞的多种类型的分子; (2)分子的综合分析,以表征基于分子标记的细胞类型及其关于病理生理过程的功能。在这里,我们总结了单细胞多组学分析(mRNA 基因组,mRNA-DNA 甲基化,mRNA 染色质可及性和 mRNA-蛋白质)的技术以及单细胞多组学数据的综合分析方法。
20年的文章,可能有点老了?(感觉分析方法应该是的,技术上还不清楚)
为了对单细胞多组学数据进行综合分析,对单细胞单组学数据的处理方法进行了扩展和组合。这些策略可以分类为(1)单细胞单组学数据之间的相关性分析(图5a) ; (2)一种类型的单细胞数据(例如 scRNA-seq)的分析,然后整合另一种单细胞数据类型(例如来自 scWGS 的 SNV 或来自 scATAC-seq 的开放染色质位点)(图5b) ; 和(3)所有类型的单细胞组学数据的综合分析以产生整体单细胞图(例如,细胞群体或分化轨迹)(图5c)。
Using machine learning approaches for multi-omics data analysis: A review
Concatenation-based 的集成方法考虑使用由多个组学数据集合构成的联合数据矩阵来开发模型。图2显示了Concatenation-based 的集成的阶段。第一阶段包括来自三个独立组学(如基因组学、蛋白质组学和代谢组学)的原始数据以及相应的表型信息。通常,Concatenation-based 集成不需要任何预处理,因此没有第2阶段。在第三阶段,来自个体组学的数据被连接起来,形成一个单一的大型多组学数据矩阵。最后,在第四阶段,联合矩阵用于监督或非监督分析。使用Concatenation-based 的方法的主要优点是,一旦所有个体组学的Concatenation完成,使用机器学习进行回归或分类就比较简单。这些方法平等地使用所有的连接特征,并且可以为给定的表型选择最有区别的特征。
Model-based 的集成方法为不同的组学数据创建多个中间模型,然后从不同的中间模型构建最终模型(图2)。第一阶段建立三个独立组学的原始数据以及相应的表型信息。在第二阶段,为每个组学开发单独的模型,然后在第三阶段将其集成到一个联合模型中。最后,对第四阶段的关节模型进行了分析。基于模型的整合方法的主要优势在于它们可以用于基于不同组学类型的合并模型,其中每个模型都是从具有相同疾病信息的不同患者组开发的。
Model-based 的整合方法有助于理解不同组学之间对某一表型的相互作用(例如,在胰腺癌中的生存)。第四阶段的最终多维关节模型可以使用 ML 算法(例如神经网络)建立,该算法使用每个组学模型(第三阶段)中最相关的变量。这种方法可以分析个别模型的预测能力的改善,并找到最佳的区分特征。
Transformation-based 的集成方法首先将组学数据集转换为图形或核矩阵,然后将其组合成一个模型。图2显示了Transformation-based 的集成的各个阶段。第一阶段建立三个个体组学的原始数据以及相应的表型信息。在第二阶段,为为独立组学开发转换方法(以图形或核关系的形式),这些组学后来被整合到第三阶段的联合转换中。最后,在第四阶段进行了分析。Transformation-based的集成方法的主要优点是,如果可以获得独特的信息(如患者 ID) ,则可以使用它们来组合各种组学。
图形提供了一种形式化的手段来转换和描述不同组学样本之间的关系,其中图形的节点和边分别表示主题及其关系。类似地,核方法能够将数据从其原始空间转换为更高维的特征空间。然后,这些方法在特征空间中探索线性决策函数,但这些函数在原始空间中是非线性的。
注: 其实可以看出第三种方法正在越来越多