使用多组学生物信息学分析构建AML预后模型

Construction of a solid Cox model for AML patients based on multiomics bioinformatic analysis

基于多组学生物信息学分析,构建AML患者的实体Cox模型

发表期刊:Front Oncol

发表日期:2022 Aug 10

影响因子:5.738

DOI:  10.3389/fonc.2022.925615

一、研究背景

        急性骨髓性白血病(AML)是一组高度异质性的血液恶性肿瘤,具有各种细胞遗传学和分子异质性的特征。一些研究表明,AML患者骨髓(BM)微环境的变化在很大程度上促进了白血病发生、抗药性和白血病复发的不同生物过程。AML的BM微环境由白血病细胞、基质细胞、内皮细胞和不同的免疫细胞亚群组成。

        白血病的免疫微环境呈现出免疫失调和抑制,导致抑制性T细胞和效应性T细胞的不平衡,T细胞衰竭,与正常骨髓组织相比,骨髓源性抑制细胞(MDSCs)和支持白血病的巨噬细胞增加。最近关于白血病免疫微环境特征的研究可以帮助寻找新的预后生物标志物和潜在的治疗目标。

二、材料与方法

1、数据来源

1)TCGA:151例的mRNA数据、188例的miRNA数据和140例的甲基化数据;筛选后有97名患者进行研究

2)独立验证队列,GSE106291数据集(251个样本)

3)单细胞RNA序列数据集GSE116256,包括16个未处理的样本(D0),被用来揭示免疫细胞类型中枢纽基因的分布

4)免疫基因集,包括776个基因

5)实验:55名新诊断的AML患者

2、分析流程

1)候选基因的筛选和分层聚类:DESeq2分析mRNA和miRNA表达的差异;使用methylmix软件包来分析基因甲基化水平和mRNA表达值之间的相关性;基于生存相关的免疫基因(SIGs)进行无监督的层次聚类,建立TCGA-AML患者的免疫基因组分类

2)免疫浸润分析:单样本基因集富集分析(ssGSEA);ESTIMATE算法,计算基质、免疫和估计分数

3)蛋白质-蛋白质相互作用网络的构建和基因本体论功能富集分析:mRNA相互作用数据来自STRING数据库;使用DAVID进行GO富集分析

4)生存分析和预后模型的构建:构建Cox回归模型、LASSO、生存分析

5)scRNA数据集分析:采用Seurat和SingleR软件包来生成统一模态近似和投影(UMAP)图,并揭示枢纽基因在每种免疫细胞类型中的分布

6)分子对接:使用AutoDock Vina 1.1.2进行分子对接的虚拟筛选,预测最可能的最佳配体;从蛋白质数据库检索了枢纽基因的三维结构;从ZINC15类药物数据库中提取了2115种FDA批准的化合物库

流程图

三、实验结果

01 - 基于对患者预后有显著影响的免疫相关基因的AML分类

        为了更广泛地研究AML中的免疫基因,从TCGA数据库中检索了97个样本的转录组、microRNA和DNA甲基化谱数据并整合了临床信息。采用Cox比例风险回归模型对97个样本mRNA表达数据中的776个免疫相关基因进行分析,确定了98个显著影响AML患者生存的生存相关免疫基因(SIGs)。

        利用98个SIGs的无监督聚类分析,根据基因表达特征,将这97个样本聚类为三个不同的免疫亚型(Im1:免疫群1,Im2:免疫群2,Im3:免疫群3)(图1A)。如免疫基因热图所示,大多数SIG在Im1和Im3群中高表达,但在Im2群中低表达(图1B)。Kaplan-Meier生存分析显示,Im2群组的预后明显好于Im1和Im3群组(图1C)。

图1 基于98个生存相关免疫基因的AML患者无监督聚类分析

        由于免疫微环境与AML的发生和发展明显相关,因此利用单样本基因集富集(ssGSEA)算法来探索三个免疫群中免疫微环境的差异。结果显示,Im2集群的浸润性免疫细胞比Im1和Im3集群少(图2A)。一致的发现表明,Im2簇的免疫评分明显较低(图2B),而Im2簇的肿瘤纯度明显较高,但Im1和Im3簇的肿瘤纯度则明显较低(图2C)。可以得出结论,免疫浸润少、免疫分数低的患者可能比免疫浸润多、免疫分数高的患者预后好。

图2 三个AML患者群的免疫功能特征

02 - 通过对数据综合分析,筛选出19个枢纽基因

        基于Im2群和Im1/3群在免疫浸润和生存趋势上的显著差异,作者将Im2定义为缺乏免疫浸润的亚型(IL型),Im1/3定义为免疫浸润丰富的亚型(IR型)。为了揭示IL和IR亚型之间不同预后的潜在机制,对两种类型的AML患者的mRNA表达谱进行了详细分析。进行差异表达基因分析,发现1936个差异表达基因(DEGs)在IL和IR亚型之间存在显著差异。有42个SIG-DEGs是1936个DEGs和98个SIGs的共同成员(图3A,B)。

        为了阐明IL和IR亚型预后差异的机制,从STRING网站获得了42个DEG-SIGs的相互作用数据,然后用Cytoscape构建蛋白-蛋白相互作用(PPI)网络(图3C)。基因本体论(GO)功能富集分析区分了三个子本体中的一些富集术语:生物过程(BP)、细胞成分(CC)和分子功能(MF)(图3D)。在BP方面,42个DEG-SIGs富集在防御反应、炎症反应和免疫系统过程中。在CC方面,42个DEG-SIGs富集于整合素复合体、质膜外侧和细胞表面。对于MF,42个DEG-SIGs在细胞部分、三级颗粒和整个膜中富集。这些结果可能部分地说明了42个DEG-SIGs影响AML患者预后的潜在机制。

图3 对TCGA-AML患者的mRNA表达数据集的差异分析

        考虑到白血病发生和发展的复杂机制,接下来进行综合多组学分析,以确定与预后相关的枢纽基因。比较IL和IR亚型之间患者的miRNA表达谱,发现有93个miRNA有明显的差异表达(图4A)。使用DIANO TOOLS/microT-CDS共鉴定了7294个目标miRNA基因(TDEmiRs)。通过综合生物信息学分析,从42个DEG-SIGs和7294个TDEmiRs中选出了IL和IR亚型之间的15个常见差异表达基因(图4C)。

        对mRNA和甲基化特征的综合分析表明,355个基因的mRNA表达水平和甲基化程度之间存在明显的负相关。当这355个甲基化相关基因(MethylCor)与42个DEG-SIGs交叉比对时,发现了6个与免疫浸润相关的常见基因,以及IL和IR亚型之间的差异表达、甲基化和预后(图4B,C )。

图4 对97名TCGA-AML患者进行多组学分析

03 - 构建了一个基于5个hub基因的预后模型

        在观察到IL和IR类型之间的免疫浸润、基因表达和临床行为的明显差异后,作者接下来结合microRNA和表观遗传调控数据,建立了一个基于19个免疫相关DEGs的LASSO-Cox比例危害回归模型。利用LASSO模型,建立了一个基于5个枢纽基因的分类器来预测AML的预后(风险分数=-0.086×ADAMTS3 + 0.180×CD52 + 0.472×CLCN5 - 0.356×HAL + 0.368×ICAM3)(图5A, B )。KM图显示了不同亚型患者之间的OS差异(图5C),ROC曲线表明该模型可以有效预测AML的1年、3年和5年的预后(AUC分别=0.82、0.83、0.99)(图5D)。与早期的分析一致,发现TCGA-AML资料的151个mRNA样本有类似的预测性能(图5E, F )。

        为了进一步测试这个模型,从GEO数据库中获得了验证队列(GSE106291),1年、3年和5年的KM图和ROC曲线证实了基于5-hub基因的模型的预后价值(图5G,H)。按疾病分类分层后,结果显示,IL型的风险得分明显低于IR型。这些评价表明,基于5-hub基因的模型可以在传统分配的风险组中识别出一批高危患者,并可指导临床实践。

图5 COX回归模型的构建

        为了验证基于5-hub基因模型的预后价值,收集了200名新诊断的AML患者中检测到的6575个基因突变和55名新诊断的AML患者(新桥医院)中检测到的38个基因突变。常见的突变基因是DNMT3A、IDH1、NRAS、RUNX1和TET2。在这个模型分类中,通过卡方检验考虑,高风险与RUNX1和TET2的突变有明显关系。对55名有预后信息的患者进行KM分析表明,RUNX1(图6A)和TET2(图6B)突变的患者与预后不良相关,中位生存期较短。

图6 分析AML中的枢纽基因和突变基因

04 - hub基因在AML患者的免疫细胞中的多样化分布

        为了探索这5个枢纽基因在AML发病机制中的价值,作者进一步确定了单细胞测序数据集GSE116256,利用Seurat软件包进行聚类,SingleR软件包进行注释,描述这5个枢纽基因在免疫细胞中的分布(图7A)。如散点图(图7B)和小提琴图(图7C)所示,CD52、ICAM3和CLCN5在粒细胞、单核细胞、T淋巴细胞、B淋巴细胞、树突状细胞和NK细胞中广泛表达,而ADAMTS3在这些细胞中很少表达。HAL在粒细胞和单核细胞中高度表达,但在其他免疫细胞中很少表达。据此,我们假设这些枢纽基因通过调节特定细胞的基因表达发挥各种作用。蛋白质图谱数据库中血细胞的枢纽基因表达进一步证实了这一结果。

图7 枢纽基因的scRNA分析

05 - 对枢纽基因的最佳匹配化合物的调查

        为了研究最合适的化合物,作者利用CD52、CLCN5、ICAM3的三维结构和ZINC15数据库中2115个FDA批准的化合物进行了分子对接的虚拟筛选。前两个命中的化合物对各自靶点的预测结合亲和力从高到低排列。这些蛋白质和候选化合物的最可能的相互作用的二维可视化表示在图8中。

图8 二维可视化

四、结论

        利用多组学分析和验证方法,作者构建并验证了一个新型的、基于5个枢纽基因的模型,该模型可以进行稳健的风险分层,并有利于鉴定AML的预后情况。通过scRNA测序分析,揭示了5个枢纽基因在免疫细胞中的分布。此外,对已知蛋白结构的三个基因(CD52、CLCN5和ICAM3)进行了虚拟筛选,发现了与之结合能量最低的化合物,这为进一步寻找靶向抑制剂提供了思路。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容