导读
在药物发现的早期阶段,准确预测蛋白质与配体的结合亲和力极为关键。尽管目前已有基于深度学习的方法,但它们由于缺乏通用性,还未能超越如对接等更传统的方法。为了提升这些方法的普适性,研究者们尝试从蛋白质和配体数据去学习信息。本研究通过系统分析一种基于序列的深度学习框架,评估了蛋白质和配体编码在预测常用激酶数据集结合亲和力方面的作用。
研究中,蛋白质通过基于序列的卷积神经网络以及反映结合接触图结构信息的图神经网络进行编码。配体则基于图神经网络生成编码。研究团队通过改变节点和边缘属性的方式,测试了不同的配体扰动。对于蛋白质部分,采用了 3 种不同的蛋白质接触图生成方法(AlphaFold、Pconsc 和 ESM-1b),并与随机对照组进行了比较。
结果显示,蛋白质编码对结合预测的影响有限,在 KIBA 的结合亲和力调查指标中未见统计学上的显著差异。相较之下,随机配体及其节点属性的变化则展示出显著差异,表明学习任务在更大程度上依赖于配体数据。此外,使用不同的蛋白质和配体编码组合并未带来性能上的显著改变。
方法
数据集
Davis 数据集
- 组成:包括 442 种激酶和 68 种抑制剂的选择性测定。
- 测量重点:聚焦于抑制剂的解离常数,转换为对数形式。
- 数据倾斜性:该数据集中非结合数据占绝大多数。
KIBA 数据集
- 起源和组成:将多种生物活性数据合并为单一的 KIBA 评分。
- 筛选相关性:最初由大量靶标和分子组成,经过筛选,只包括至少有 10 次观测的那些。
- 序列长度考量:只包括序列长度 ≤1024 残基的激酶。
从特征到编码
蛋白质的 1D 编码表示
- 激酶 − 配体相互作用指纹和结构(KLIFS):聚焦于激酶抑制剂与其靶标的相互作用。
- 进化尺度建模(ESM1b):一种蛋白质语言模型,用于预测蛋白质序列中掩蔽残基。
蛋白质的 2D 编码
- 利用蛋白质接触图:基于邻接矩阵展示氨基酸接触的蛋白质图形表示。
- 多种接触图生成方法:包括 Pconsc4、AlphaFold2 模型预测和 ESM-1b 预测。
配体编码
- 基于图的方法:源自线性化的化学结构(SMILES 字符串)。
- 特征:每个节点包含详细的 78 维特征向量。
深度学习架构
- 结合配体和蛋白质编码:研究采用了三层卷积神经网络(CNN)进行 1D 编码,以及图神经网络(GNN)进行 2D 图编码。
- 图卷积网络(GCN)层:这些层在从输入图中学习表示方面至关重要。
实验设置和结果
- 模型训练:DL 模型在配体和蛋白质编码的组合上进行训练。
- 评估指标:包括一致性指数、均方根误差、Pearson 相关性和 Spearman 等级相关性。
- 可访问性:所有代码和模型均公开可访问,展现研究的透明度和可重复性。
主要结果及图表
结合亲和力预测对蛋白接触图预测方法不敏感。
研究者采用 AlphaFold、ESM-1b 和 Pconsc 等方法,对 KIBA 和 Davis 数据集的蛋白接触图进行计算。通过对比实验结构得出,AlphaFold 的表现最佳,ESM-1b 则相对较弱。研究发现,不同的蛋白接触图预测方法对结合亲和力预测的影响较小,无论采用 2D 还是 1D 编码,其预测性能表现相近。
然而,配体编码的变化对深度学习模型的学习任务产生显著影响。不同的蛋白质和配体编码结合方式(如拼接、元素乘积等)对模型预测能力的影响不大,这表明深度学习模型主要从配体编码中学习,而蛋白质特征的作用相对较小。
图 1:深度学习框架在蛋白质-配体结合亲和力预测中的系统评估
- A: 从输入序列中提取 1D 蛋白质表示,经 CNN 模块处理后得到蛋白质编码。
- B: 2D 蛋白质编码过程中,首先需通过预测接触图的步骤生成蛋白质图形,以从序列提取结构信息。然后,通过图神经网络传递图形,以提取特征并生成蛋白质编码。
- C: DL 框架概览。该框架处理输入序列和 SMILES 数据,通过 1D 或 2D 数据结构生成各自的编码。这些编码结合后,输入至全连接神经网络,用于预测结合亲和力。
- D: 输入的 SMILES 字符串被转换为 2D 图形,并通过图神经网络处理,以生成配体编码。
- E: 蛋白质与配体编码结合,包括连接、元素级乘积,以及将这两者的向量连接。
图 2:KIBA10 和 Davis11 数据集的综合统计
KIBA 包含 188 个蛋白质、2111 个配体和 95,577 个结合互作用,Davis 包含 333 个蛋白质、68 个配体和 22,644 个结合互作用。
- A: KIBA 数据集中 KIBA 评分分布图。较低的 KIBA 分数表明结合亲和力更高(≤3)。
- B: Davis 数据集中 pKd 分数分布图。较高的 pKd 表示结合亲和力更强,(>7)通常被视为有效的结合体。
图 3:基于不同算法预测的接触图比较
- A: 以 PDB ID 5D7 V 为参考,对 PTK-6 的接触图进行分析,左上角为 AlphFold2,右上角为 Pconsc4,左下角为 ESM-1b,右下角为随机接触图。真实接触用青色方块表示,缺失的接触用橙色叉号表示,错误预测的接触用粉色圆圈标出。
- B: 在 KIBA 和 Davis 数据集中精选的蛋白质结构上评估接触图方法,结果显示 AlphaFold2 接触图在 MCC 和 F1 分数上表现更优,Pconsc4 接触图预测具有更高平均精度。ESM-1b 接触图预测相对不稳定。
图 4:结构信息对蛋白质编码(2D)在结合亲和力预测上的影响不显著
- A, B: 四种蛋白质接触图方法在结合亲和力预测上的性能比较,分别针对 KIBA 数据集(A)和 Davis 数据集(B)。性能指标包括 CI、Pearson 相关系数、Spearman Rank 和均方根误差。结果表明,蛋白质接触图中的结构信息对 DL 模型性能影响不大。
- C, D: 三种不同 1D 编码方法及其性能指标(CI、Pearson 相关系数、Spearman Rank 和均方根误差)的对比,ESM-1b 模型的 PLM 编码相较于来自 KLIFS 的手工序列编码表现更优,且与随机编码相当。整体而言,1D 编码的性能与包含蛋白质图信息的编码相似。
图 5:配体编码变化对结合亲和力预测性能的显著影响
测试四种不同配体编码对 DL 模型在结合预测中的性能影响,结果表明 DL 模型对配体编码敏感,无论是 KIBA(A)还是 Davis(B)数据集。其中「原始」编码指从原始 SMILES 字符串生成的配体图,无更改。「点随机」编码指在输入 SMILES 字符串中部分更改原子后获得的图,例如替换卤素原子或去除(=O)原子。「随机节点」编码通过随机化输入配体图的节点特征获得。「随机」编码指从所用数据集中随机采样获得的图的编码。训练期间,DL 模型未学习随机采样和节点特征随机化编码的结合亲和力,突显出模型对配体信息的依赖性。
图 6:KIBA(A)和 Davis(B)数据集上编码组合技术的性能变化微小
「Concat」编码是将蛋白质和配体编码连接而成,「Product」编码则是从蛋白质和配体编码的逐元素乘积中获取。「Concat + Product」是将逐元素乘积编码与连接的蛋白质和配体编码结合。结果显示,结合亲和力预测受元素级乘积和连接操作结合产生的连接向量影响甚微。
比较分析
深度学习模型主要通过学习配体特征来预测蛋白质-配体结合力,而不是依赖于蛋白质信息。
该研究采用多种深度学习模型,例如 CNN 和 GCN,探究这些模型如何从蛋白质序列和配体 SMILES 字符串的不同编码中进行学习。研究者利用 AlphaFold、Pconsc 和 ESM-1b 等三种蛋白质接触图生成方法进行了研究,并与随机对照组进行了对比。
本研究基于 KIBA 和 Davis 数据集进行,涉及 442 种激酶和 68 种抑制剂的选择性测定。为了改善分子图的构建,研究者在每个配体节点中增加了自环,使其表示为一个 78 维的特征向量。
结果表明,目前的深度学习模型主要通过学习配体的特征来预测蛋白质-配体结合力,而不是蛋白质信息。未来的研究需关注现有数据库的拓展、数据表示方法的改进,以及架构的优化,以便更好地学习蛋白质与配体的相互作用。
局限:
- 数据集和编码范围有限
- 仅使用激酶数据集(KIBA 和 Davis),可能限制了研究发现对其他蛋白质类型或配体的普遍性。
- 研究专注于一组特定的编码方法,可能忽略了该领域中其他相关或新兴的方法。
- 模型性能和解释问题
- 研究结果表明,蛋白质编码对结合预测的影响有限,这可能与现有文献或药物设计中的实际期望存在冲突。
- 缺乏对计算药物发现领域更广泛影响的深入讨论。
改进建议
- 扩大数据集和编码范围
- 考虑包含更多种类的蛋白质和配体,以增强研究发现的普遍性。
- 探索并比较额外的编码方法,以提供更全面的分析。
- 增强模型性能分析
- 深入探讨蛋白质编码影响有限的原因,以及这与现有研究的一致性或冲突。
- 讨论研究发现对药物发现的实际影响,可能包括案例研究或假设应用。
参考资料:
Gorantla, R., Kubincová, A., Weiße, A. Y., & Mey, A. S. J. S. (2023). From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.3c01208
Data and code at: https://github.com/meyresearch/DL_protein_ligand_affinity
文献下载(复制链接到外部浏览器打开): https://is.gd/mhrfuG