DeepProSite:基于 ESMFold 和预训练语言模型的蛋白质结合位点预测


 

今天给大家介绍一篇 2023 年发表在 Bioinformatics 上的文章, 标题为:《DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model》。

导读

DeepProSite 的研究动机在于蛋白质功能位点(如蛋白质、肽或其他生物组分的结合位点)的识别对理解相关生物过程和药物设计至关重要。

然而,现有基于序列的方法由于只考虑序列相邻的上下文特征且缺乏结构信息,预测准确性有限。

DeepProSite 使用 ESMFold 生成蛋白质结构和预训练语言模型生成序列表示,通过图转换器(Graph Transformer)将结合位点预测转化为图节点分类问题。在预测蛋白质-蛋白质/肽结合位点方面,DeepProSite 在多数指标上优于现有的序列和结构基方法。

此外,与竞争对手的结构基预测方法相比,DeepProSite 在预测未结合结构时保持了性能。DeepProSite 还扩展到核酸和其他配体的结合位点预测,验证了其泛化能力。

最后,DeepProSite 的在线服务可在 https://inner.wei-group.net/DeepProSite/ 访问。

数据集

基准数据集

  • 数据来源:该研究依赖于其他研究中使用的基准数据集。
  • 蛋白质数据:主要数据集包含 1279 个肽结合蛋白质(PBPs),最初源自 SPRINT-Seq(Taherzadeh 等,2016 年)。
  • 数据库应用:数据收集自 BioLiP 数据库(Yang 等,2013a)。
  • 纳入标准:为保持数据完整性,排除了序列相似性超过 30%的蛋白质。
  • 表格 1:基准数据集的统计信息

定义肽结合残基

  • 标准:如果残基中至少有一个原子与肽中的任何原子之间的距离小于 3.5 Å,则定义为肽结合残基。

数据划分用于模型训练和测试

  • 策略:采用与之前研究相同的数据划分策略,以进行公平比较。
  • 独立测试数据集:使用 SPRINT-Str(Taherzadeh 等,2018 年)的 10% 化合物作为测试数据集(Pep_Test_125)。
  • 训练数据集:其余部分用于训练(Pep_Train_1154)。

用于蛋白质-蛋白质结合位点预测的额外数据集

  • 所用数据集:采用了三个来自过去研究的数据集 - Pro_Dset_186、Pro_Dset_164 和 Pro_Dset_72。
  • 数据集来源:这些数据集是从 PDB Bank 中注释的复合物和蛋白质-蛋白质对接基准集版本 3.0 构建的。

蛋白图构建

蛋白图中的节点分类

  • 方法:将预测任务构建为蛋白质图中的节点分类任务。
  • 数据提取:提取了每个节点的序列、结构特征和 3D 坐标。

预测的蛋白质结构

  • 使用工具:ESMFold_v1(Lin 等,2023 年),一种大型语言模型和神经网络。
  • 优势:提供快速准确的原子分辨率结构预测,无需多序列比对。

结构属性

  • 特征提取:利用 DSSP 提取了每个残基的三种类型的结构特征。
  • 特征类型:相对溶剂可及性、一维次级结构轮廓以及蛋白质主链扭转角的正弦/余弦值。

语言模型嵌入

  • 采用模型:ProtT5-XL-U50,基于 Transformer 模型的自监督自编码器。
  • 训练和微调:该模型在 BFD 上进行预训练,并在 UniRef50 上进行微调。
  • 标准化:序列嵌入被标准化为 0 到 1 之间的分数。

DeepProSite 框架

增强蛋白质结合位点预测

  • 目标:通过整合蛋白质空间信息,提高蛋白质结合位点预测的准确性。
  • 输入:将蛋白质序列输入 ESMFold 和 ProtT5,生成预测的蛋白质结构和序列嵌入。
  • 图构建:构建了以节点位置和边特征为重点的 k 近邻图。

几何边缘特征

  • 创新点:整合相对空间和位置编码以表示几何边缘特征。
  • 实现:特征编码包括两个相邻节点之间的距离、方向和取向。

图 Transformer

  • 关键组成:多头自注意和逐位前馈网络。
  • 整合蛋白质结构信息:利用 k 最近邻掩码,将注意力分数聚焦于空间上相关的氨基酸。

多层感知机

  • 功能:使用图 Transformer 的输出估计残基结合概率。

实施细节

模型训练和评估

  • 方法论:使用 5 折交叉验证来训练和评估模型。
  • 模型规格:四层图 Transformer 模型,具有特定的注意力头、隐藏单元和丢弃率。
  • 优化器:Adam 优化器,具有特定的优化参数。

评估指标

应对数据不平衡

  • 使用的指标:准确度、精确度、召回率、特异性、F1 分数、马修斯相关系数、AUC 和 AUPRC。
  • 阈值确定:通过最大化每个模型的 MCC 来识别最佳阈值。
  • 重点关注 AUPRC:由于其在不平衡数据集中的敏感性和全面分析。

深入分析 DeepProSite 的性能

DeepProSite 在预测蛋白质/肽结合位点方面表现卓越。

  • 📈 模型性能: DeepProSite 在多个数据集上显示出一致的高性能。
  • 🔄 方法对比: 与其他方法相比,DeepProSite 在蛋白质和肽数据集上均表现更好。
  • 🧬 特征重要性: 结合不同的特征集合可以显著提高模型的准确性。
  • 🔬 预测结构质量: 预测的蛋白质结构质量对结合位点预测的准确性至关重要。

作者指出,DeepProSite 在多个测试集中展现了其强大的性能,特别是在 Pep_Test_125 和 Pep_Test_639 上,其 MCC 和 AUC 的表现均优于其他方法。这些数据集的综合评估表明,DeepProSite 不仅在识别肽结合位点方面表现出色,还在处理蛋白质结构方面显示了其优越性。

研究者通过比较不同特征组合的影响,揭示了 ProtT5 和 DSSP 的结合对于提高模型性能的重要性。

此外,ESMFold 预测的蛋白质结构质量对 DeepProSite 的性能有显著影响,这一点通过比较预测结构和天然结构之间的全局距离测试(GDT)得到了证实。

图 1:DeepProSite 方法的整体流程

首先,蛋白质序列经过 ESMFold 和 ProtT5 预训练语言模型的处理,以获取预测结构和序列嵌入。

在预测结构基础上,构建了 k 近邻图,图中每个节点的位置由 α-碳原子坐标决定。

节点特征综合了语言模型嵌入和 DSSP 的数据,而多种边特征包含了邻近节点间的距离、方向和定向关系。

通过应用图转换模型,可以汇总临近节点和边的特征,并更新目标节点的表示,从而捕捉到蛋白质与肽的结合模式。

图 2:几何和序列信息对模型性能的影响

图展示了 DeepProSite 和 Transformer 在不同数据集上的性能对比,包括 Pep_Train_1154、Pep_Test_125(图 a 和 b)、Pep_Train_640、Pep_Test_639(图 c 和 d)以及 Pro_Train_335、Pro_Test_60、Pro_Test_315(图 e 和 f)。

使用 ROC 曲线和精确度-召回曲线来展示这些性能。特别在 Pep_Test_125(图 g)和 Pro_Test_315(图 h)上,展示了两种方法在具有不同非局部接触的氨基酸上的 Matthews 相关系数(MCC)对比。

图 3:DeepProSite 与基于结构的方法的性能比较

此图比较了 DeepProSite 与基于结构的方法在 31 种结合和非结合蛋白质上的性能。

图 4:ESMFold 预测质量与 DeepProSite 性能的关联

在 Pep_Test_125 数据集上,使用全局距离测试(GDT)衡量 ESMFold 预测质量,使用面积下精确度-召回曲线(AUPRC)衡量 DeepProSite 性能。

每个蛋白质对应的 GDT 和 AUPRC 值用蓝色散点表示,红线显示了将蛋白质按 GDT 排序并划分为六个区间后,每个区间的平均 GDT 和 AUPRC。

图 5:DeepProSite 与其他方法预测的结合残基的可视化对比

此图展示了 DeepProSite 与其他方法(包括 Transformer、PepNN-Struct、PepBCL、PepBind、GraphPPIS、SPPIDER、ProNA2020)在 Pep_Test_125 的第一个蛋白质(ID: 4L3O, 链 A)和 Pro_Test_315 的第二个蛋白质(ID: 4BVX, 链 A)上预测结合残基的结果。

正确预测(TP)、假阳性(FP)和假阴性(FN)分别用绿色、红色和黄色标示。

图 6:DeepProSite 网络服务的用户界面

在图 a 和 b 中,用户可以输入 FASTA 格式的蛋白质序列并选择首选模型。图 c 显示了对于 PDB 中可用的蛋白质,用户可以对预测结果进行可视化,并且预测结果也可以下载为文本文件。

(c) 对于 PDB 中可用的蛋白质,可以对预测结果进行可视化。预测结果也可以下载为文本文件。

表格 2:Pep_Train_1154 和 Pep_Test_125 数据集上预测 PBPs 的特征性能比较

表格 3:DeepProSite 与最新方法在 Pep_Test_125 数据集上的性能比较

表格 4:DeepProSite 与最新方法在 Pep_Test_639 数据集上的性能比较

表格 5:DeepProSite 与最新方法在 Pro_Test_60 数据集上的性能比较

需要注意的是,所有其他方法的结果都来自先前的研究,如 GraphPPIS 和 RGN,这些研究使用了相同的训练和测试数据集。

表格 6:DeepProSite 与最新方法在 Pro_Test_315 数据集上的性能比较

表格 7:DeepProSite 与 GraphBind 在七个配体结合测试集上的性能比较

总结

DeepProSite 利用蛋白质结构和序列信息,在多种指标上实现了比现有方法更准确的蛋白质结合位点预测。

  • DeepProSite 集成了蛋白质结构与序列信息
  • 性能优于现有序列和结构基方法
  • 在未结合结构的预测性能上保持稳定
  • 应用于核酸和其他配体的预测
  • 提供在线服务器和开源代码

参考资料:
  • Fang, Y., Jiang, Y., Wei, L., Ma, Q., Ren, Z., Yuan, Q., & Wei, D.-Q. (2023). DeepProSite: structure-aware protein binding site prediction using ESMFold and pretrained language model. Bioinformatics, 39(12). https://doi.org/10.1093/bioinformatics/btad718

  • Data and code: https://github.com/WeiLabBiology/DeepProSite

— 完 —

点击这里👇关注我,记得标星哦~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容