今天给大家介绍一篇 2023 年发表在 Bioinformatics 上的文章, 标题为:《DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model》。
导读
DeepProSite 的研究动机在于蛋白质功能位点(如蛋白质、肽或其他生物组分的结合位点)的识别对理解相关生物过程和药物设计至关重要。
然而,现有基于序列的方法由于只考虑序列相邻的上下文特征且缺乏结构信息,预测准确性有限。
DeepProSite 使用 ESMFold 生成蛋白质结构和预训练语言模型生成序列表示,通过图转换器(Graph Transformer)将结合位点预测转化为图节点分类问题。在预测蛋白质-蛋白质/肽结合位点方面,DeepProSite 在多数指标上优于现有的序列和结构基方法。
此外,与竞争对手的结构基预测方法相比,DeepProSite 在预测未结合结构时保持了性能。DeepProSite 还扩展到核酸和其他配体的结合位点预测,验证了其泛化能力。
最后,DeepProSite 的在线服务可在 https://inner.wei-group.net/DeepProSite/ 访问。
数据集
基准数据集
- 数据来源:该研究依赖于其他研究中使用的基准数据集。
- 蛋白质数据:主要数据集包含 1279 个肽结合蛋白质(PBPs),最初源自 SPRINT-Seq(Taherzadeh 等,2016 年)。
- 数据库应用:数据收集自 BioLiP 数据库(Yang 等,2013a)。
- 纳入标准:为保持数据完整性,排除了序列相似性超过 30%的蛋白质。
- 表格 1:基准数据集的统计信息
定义肽结合残基
- 标准:如果残基中至少有一个原子与肽中的任何原子之间的距离小于 3.5 Å,则定义为肽结合残基。
数据划分用于模型训练和测试
- 策略:采用与之前研究相同的数据划分策略,以进行公平比较。
- 独立测试数据集:使用 SPRINT-Str(Taherzadeh 等,2018 年)的 10% 化合物作为测试数据集(Pep_Test_125)。
- 训练数据集:其余部分用于训练(Pep_Train_1154)。
用于蛋白质-蛋白质结合位点预测的额外数据集
- 所用数据集:采用了三个来自过去研究的数据集 - Pro_Dset_186、Pro_Dset_164 和 Pro_Dset_72。
- 数据集来源:这些数据集是从 PDB Bank 中注释的复合物和蛋白质-蛋白质对接基准集版本 3.0 构建的。
蛋白图构建
蛋白图中的节点分类
- 方法:将预测任务构建为蛋白质图中的节点分类任务。
- 数据提取:提取了每个节点的序列、结构特征和 3D 坐标。
预测的蛋白质结构
- 使用工具:ESMFold_v1(Lin 等,2023 年),一种大型语言模型和神经网络。
- 优势:提供快速准确的原子分辨率结构预测,无需多序列比对。
结构属性
- 特征提取:利用 DSSP 提取了每个残基的三种类型的结构特征。
- 特征类型:相对溶剂可及性、一维次级结构轮廓以及蛋白质主链扭转角的正弦/余弦值。
语言模型嵌入
- 采用模型:ProtT5-XL-U50,基于 Transformer 模型的自监督自编码器。
- 训练和微调:该模型在 BFD 上进行预训练,并在 UniRef50 上进行微调。
- 标准化:序列嵌入被标准化为 0 到 1 之间的分数。
DeepProSite 框架
增强蛋白质结合位点预测
- 目标:通过整合蛋白质空间信息,提高蛋白质结合位点预测的准确性。
- 输入:将蛋白质序列输入 ESMFold 和 ProtT5,生成预测的蛋白质结构和序列嵌入。
- 图构建:构建了以节点位置和边特征为重点的 k 近邻图。
几何边缘特征
- 创新点:整合相对空间和位置编码以表示几何边缘特征。
- 实现:特征编码包括两个相邻节点之间的距离、方向和取向。
图 Transformer
- 关键组成:多头自注意和逐位前馈网络。
- 整合蛋白质结构信息:利用 k 最近邻掩码,将注意力分数聚焦于空间上相关的氨基酸。
多层感知机
- 功能:使用图 Transformer 的输出估计残基结合概率。
实施细节
模型训练和评估
- 方法论:使用 5 折交叉验证来训练和评估模型。
- 模型规格:四层图 Transformer 模型,具有特定的注意力头、隐藏单元和丢弃率。
- 优化器:Adam 优化器,具有特定的优化参数。
评估指标
应对数据不平衡
- 使用的指标:准确度、精确度、召回率、特异性、F1 分数、马修斯相关系数、AUC 和 AUPRC。
- 阈值确定:通过最大化每个模型的 MCC 来识别最佳阈值。
- 重点关注 AUPRC:由于其在不平衡数据集中的敏感性和全面分析。
深入分析 DeepProSite 的性能
DeepProSite 在预测蛋白质/肽结合位点方面表现卓越。
- 📈 模型性能: DeepProSite 在多个数据集上显示出一致的高性能。
- 🔄 方法对比: 与其他方法相比,DeepProSite 在蛋白质和肽数据集上均表现更好。
- 🧬 特征重要性: 结合不同的特征集合可以显著提高模型的准确性。
- 🔬 预测结构质量: 预测的蛋白质结构质量对结合位点预测的准确性至关重要。
作者指出,DeepProSite 在多个测试集中展现了其强大的性能,特别是在 Pep_Test_125 和 Pep_Test_639 上,其 MCC 和 AUC 的表现均优于其他方法。这些数据集的综合评估表明,DeepProSite 不仅在识别肽结合位点方面表现出色,还在处理蛋白质结构方面显示了其优越性。
研究者通过比较不同特征组合的影响,揭示了 ProtT5 和 DSSP 的结合对于提高模型性能的重要性。
此外,ESMFold 预测的蛋白质结构质量对 DeepProSite 的性能有显著影响,这一点通过比较预测结构和天然结构之间的全局距离测试(GDT)得到了证实。
图 1:DeepProSite 方法的整体流程
首先,蛋白质序列经过 ESMFold 和 ProtT5 预训练语言模型的处理,以获取预测结构和序列嵌入。
在预测结构基础上,构建了 k 近邻图,图中每个节点的位置由 α-碳原子坐标决定。
节点特征综合了语言模型嵌入和 DSSP 的数据,而多种边特征包含了邻近节点间的距离、方向和定向关系。
通过应用图转换模型,可以汇总临近节点和边的特征,并更新目标节点的表示,从而捕捉到蛋白质与肽的结合模式。
图 2:几何和序列信息对模型性能的影响
图展示了 DeepProSite 和 Transformer 在不同数据集上的性能对比,包括 Pep_Train_1154、Pep_Test_125(图 a 和 b)、Pep_Train_640、Pep_Test_639(图 c 和 d)以及 Pro_Train_335、Pro_Test_60、Pro_Test_315(图 e 和 f)。
使用 ROC 曲线和精确度-召回曲线来展示这些性能。特别在 Pep_Test_125(图 g)和 Pro_Test_315(图 h)上,展示了两种方法在具有不同非局部接触的氨基酸上的 Matthews 相关系数(MCC)对比。
图 3:DeepProSite 与基于结构的方法的性能比较
此图比较了 DeepProSite 与基于结构的方法在 31 种结合和非结合蛋白质上的性能。
图 4:ESMFold 预测质量与 DeepProSite 性能的关联
在 Pep_Test_125 数据集上,使用全局距离测试(GDT)衡量 ESMFold 预测质量,使用面积下精确度-召回曲线(AUPRC)衡量 DeepProSite 性能。
每个蛋白质对应的 GDT 和 AUPRC 值用蓝色散点表示,红线显示了将蛋白质按 GDT 排序并划分为六个区间后,每个区间的平均 GDT 和 AUPRC。
图 5:DeepProSite 与其他方法预测的结合残基的可视化对比
此图展示了 DeepProSite 与其他方法(包括 Transformer、PepNN-Struct、PepBCL、PepBind、GraphPPIS、SPPIDER、ProNA2020)在 Pep_Test_125 的第一个蛋白质(ID: 4L3O, 链 A)和 Pro_Test_315 的第二个蛋白质(ID: 4BVX, 链 A)上预测结合残基的结果。
正确预测(TP)、假阳性(FP)和假阴性(FN)分别用绿色、红色和黄色标示。
图 6:DeepProSite 网络服务的用户界面
在图 a 和 b 中,用户可以输入 FASTA 格式的蛋白质序列并选择首选模型。图 c 显示了对于 PDB 中可用的蛋白质,用户可以对预测结果进行可视化,并且预测结果也可以下载为文本文件。
(c) 对于 PDB 中可用的蛋白质,可以对预测结果进行可视化。预测结果也可以下载为文本文件。
表格 2:Pep_Train_1154 和 Pep_Test_125 数据集上预测 PBPs 的特征性能比较
表格 3:DeepProSite 与最新方法在 Pep_Test_125 数据集上的性能比较
表格 4:DeepProSite 与最新方法在 Pep_Test_639 数据集上的性能比较
表格 5:DeepProSite 与最新方法在 Pro_Test_60 数据集上的性能比较
需要注意的是,所有其他方法的结果都来自先前的研究,如 GraphPPIS 和 RGN,这些研究使用了相同的训练和测试数据集。
表格 6:DeepProSite 与最新方法在 Pro_Test_315 数据集上的性能比较
表格 7:DeepProSite 与 GraphBind 在七个配体结合测试集上的性能比较
总结
DeepProSite 利用蛋白质结构和序列信息,在多种指标上实现了比现有方法更准确的蛋白质结合位点预测。
- DeepProSite 集成了蛋白质结构与序列信息
- 性能优于现有序列和结构基方法
- 在未结合结构的预测性能上保持稳定
- 应用于核酸和其他配体的预测
- 提供在线服务器和开源代码
参考资料:
Fang, Y., Jiang, Y., Wei, L., Ma, Q., Ren, Z., Yuan, Q., & Wei, D.-Q. (2023). DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model. Bioinformatics, 39(12). https://doi.org/10.1093/bioinformatics/btad718
Data and code: https://github.com/WeiLabBiology/DeepProSite
点击这里👇关注我,记得标星哦~