Identification of Potential Biomarkers and Small Molecule Drugs for Cutaneous Melanoma Using Integrated Bioinformatic Analysis
利用综合生物信息学分析确定皮肤黑色素瘤的潜在生物标志物和小分子药物
发表期刊:Front Cell Dev Biol
发表日期:2022 Mar 30
影响因子:6.081
DOI: 10.3389/fcell.2022.858633
一、研究背景
2020年的全球统计数据显示,黑色素瘤(CM)占全球癌症的1.7%。到2021年,黑色素瘤是美国第五种最常见的癌症诊断。众所周知,基因变化有利于黑色素瘤患者的早期诊断和个体化治疗。识别基因特异性表达模式使人们有可能发现黑色素瘤组织和细胞中的关键基因变化,这有助于了解该疾病的致病机制或评估治疗。
RRA是一种使用概率模型来整合排名列表的方法,它有四个主要特点:对噪声有很强的鲁棒性,能够处理不完整的排名,对结果排名中的每个元素给予重要的分数,以及高计算效率。一些研究用它来整合多组基因芯片数据列表,并取得了良好的效果。
二、材料与方法
1、数据来源
1)从GEO数据库中检索了CM的表达谱:包括GSE46517、GSE114445和GSE15605
2)TCGA中的CM RNA-seq数据集(461个CM病例)
3)GTEx中558个正常皮肤组织RNA-seq数据集
2、分析流程
1)数据集分析:使用"limma "R软件包,用线性模型评估病例和正常皮肤对照之间的差异表达
2)稳健等级聚合分析:使用 "Robust Rank Aggregation "R软件包整合了每个数据集的所有上调和下调基因列表
3)功能和途径富集分析:DAVID对RRA分析中的重要基因进行GO和KEGG路径分析
4)蛋白质-蛋白质相互作用网络的建立和模块分析:STRING数据库
5)关键基因验证研究:单变量Cox回归分析;生存分析
6)候选小分子的鉴定:CMap是一个预测潜在药物的程序,这些药物可能诱发由特定基因表达特征编码的生物状态;将最终筛选出的差异基因分为上调组和下调组,并将其导入CMap数据库,以探索可能治疗CM的小分子药物
7)分子对接验证:对CMap中预测的小分子药物和CM的潜在靶蛋白进行了分子对接验证,并通过结合能的大小判断药物治疗CM的可靠性;化合物的mol2文件格式结构来自PubChem数据库,核心靶标的晶体结构来自RCSB蛋白质数据库
三、实验结果
01 - 皮肤黑色素瘤中差异表达基因的鉴定
作者从GEO数据库下载并分析了三个微阵列数据集,包括GSE46517、GSE114445和GSE15605。GSE46517共包含39个样本,包括31个原发性黑色素瘤样本和8个正常皮肤样本。GSE114445共收集了22个样本,包括16个原发性黑色素瘤样本和6个正常皮肤样本。GSE15605共包括62个样本,包括46个原发性黑色素瘤样本和16个正常皮肤样本。三个数据集的原发性黑色素瘤样本和正常皮肤样本都被纳入本研究。三个芯片的火山图显示在图2A-C。通过RRA综合分析,共获得135个DEGs(70个上调,65个下调)。前25个上调和下调基因的热图显示在图2D。
02 - 差异表达基因的功能和网络分析
GO功能富集分析结果显示,在生物过程(BP)、细胞成分(CC)和分子功能(MF)中,最明显的富集是对细胞增殖、细胞外区域和蛋白质结合的正向调节。KEGG通路富集分析显示,癌症中的通路和癌症中的转录失调被明显富集。
通过分析135个DEGs,作者得到了一个有75个节点和118条边的网络交互图,其中节点代表基因,边代表两个基因之间的联系,程度值代表基因之间的关联强度。DEGs的前10个枢纽基因是TYR、PMEL、RAB27A、MYO5A、MLANA、SOX10、SLC45A2、MLPH、GPR143和PLP1(图3A)。通过MCODE运算确定了四个模块(图3B-E)。
03 - 关键基因的验证
采用单变量cox回归分析法,计算CM患者前25个上调和下调基因的危险比(HR)。结果显示,GMPR、MLPH、EMP3、SLC45A2 TYR、PAIP2B、GIPC2、PDZD2、NPY1R、DLG5、ADH1B、BARD1和CERS6的表达水平与CM患者的生存时间密切相关,差异有统计学意义。PAIP2B、GIPC2、PDZD2、NPY1R、DLG5、ADH1B、BARD1和CERS6是低风险因素,而GMPR、MLPH、EMP3、SLC45A2和TYR为高风险因素(图4)。
通过单变量cox回归分析筛选出的基因,用Kaplan-Meier估计法绘制生存曲线,根据统计学差异,最终有8个基因(GMPR, EMP3, SLC45A2, PDZD2, NPY1R, DLG5, ADH1B, CERS6)符合要求(图5、6)。
在TCGA- GTEx基因表达数据集中分析了8个与CM和正常组织生存时间相关的枢纽基因的表达,验证结果显示,除了CERS6(CERS6在TCGA数据集的CM样本中上调,在GEO数据集的CM样本中下调),共有7个基因在TCGA和GEO数据集中呈现一致的表达趋势(图7)。
使用pROC软件包对七个枢纽基因进行ROC曲线分析,以AUC>0.9为临界值,发现这七个基因的AUC值都大于0.9。这些基因的表达水平在区分正常皮肤组织和CM组织方面有很高的准确性,可以被视为诊断CM的潜在 "肿瘤生物标志物"(图8)。此外,图9显示了风险评分、生存状况以及3个致癌基因和4个抑癌基因的表达水平的分布。
04 - 小分子药物的筛选
利用CMap网络将7个DEGs分析成两组(3个在上调组,4个在下调组)。经过特征查询,负丰富度得分最高的10个化合物(呋喃唑酮、环孢菌素、比索洛尔、利福平、普拉多西姆、辛可宁、甲维拉内酯、尼芬那宗、多西环素和陈去氧胆酸)被确定为治疗CM的潜在药剂。这十个化合物的化学结构见图10。
05 - 分子对接验证
使用AutoDock Vina 1.1.2软件,将筛选出的小分子药物与六个核心靶点(GMPR, EMP3, SLC45A2, NPY1R, DLG5, ADH1B)对接。由于没有获得PDZD2的晶体结构,所以无法对接。小于0的结合能表明配体和受体的自发结合。结合能越低,结合构象越稳定,作用的可能性就越大。
从图11可以看出,配体和受体之间的最小结合能大多小于-7.0 kcal/mol,说明目标蛋白与活性成分具有良好的亲和力,小分子药物有可能作用于这些目标。
选择结合能最低的小分子药物对接目标进行对接可视化(图12)。图中的虚线是氢键。例如,呋喃唑酮最可能通过与GMPR结合并与活性部位附近的五个氨基酸GLY221、SER183、GLY242、GLY243和MET269形成氢键而发挥其生物功效。
四、结论
综上所述,本研究采用RRA方法对三组CM基因芯片数据进行系统分析,再结合TCGA数据集进行验证和筛选,最终筛选出GMPR、EMP3、SLC45A2、NPY1R、DLG5、PDZD2和ADH1B等关键DEGs。本研究预测并验证了呋喃唑酮是治疗CM的潜在小分子药物,为CM标志物、治疗靶点和治疗药物的选择提供参考。