深度学习在蛋白-配体亲和力预测中应用的探索

导读

在药物发现的早期阶段，准确预测蛋白质与配体的结合亲和力极为关键。尽管目前已有基于深度学习的方法，但它们由于缺乏通用性，还未能超越如对接等更传统的方法。为了提升这些方法的普适性，研究者们尝试从蛋白质和配体数据去学习信息。本研究通过系统分析一种基于序列的深度学习框架，评估了蛋白质和配体编码在预测常用激酶数据集结合亲和力方面的作用。

研究中，蛋白质通过基于序列的卷积神经网络以及反映结合接触图结构信息的图神经网络进行编码。配体则基于图神经网络生成编码。研究团队通过改变节点和边缘属性的方式，测试了不同的配体扰动。对于蛋白质部分，采用了 3 种不同的蛋白质接触图生成方法（AlphaFold、Pconsc 和 ESM-1b），并与随机对照组进行了比较。

结果显示，蛋白质编码对结合预测的影响有限，在 KIBA 的结合亲和力调查指标中未见统计学上的显著差异。相较之下，随机配体及其节点属性的变化则展示出显著差异，表明学习任务在更大程度上依赖于配体数据。此外，使用不同的蛋白质和配体编码组合并未带来性能上的显著改变。

方法

数据集

Davis 数据集

组成：包括 442 种激酶和 68 种抑制剂的选择性测定。
测量重点：聚焦于抑制剂的解离常数，转换为对数形式。
数据倾斜性：该数据集中非结合数据占绝大多数。

KIBA 数据集

起源和组成：将多种生物活性数据合并为单一的 KIBA 评分。
筛选相关性：最初由大量靶标和分子组成，经过筛选，只包括至少有 10 次观测的那些。
序列长度考量：只包括序列长度 ≤1024 残基的激酶。

从特征到编码

蛋白质的 1D 编码表示

激酶 − 配体相互作用指纹和结构（KLIFS）：聚焦于激酶抑制剂与其靶标的相互作用。
进化尺度建模（ESM1b）：一种蛋白质语言模型，用于预测蛋白质序列中掩蔽残基。

蛋白质的 2D 编码

利用蛋白质接触图：基于邻接矩阵展示氨基酸接触的蛋白质图形表示。
多种接触图生成方法：包括 Pconsc4、AlphaFold2 模型预测和 ESM-1b 预测。

配体编码

基于图的方法：源自线性化的化学结构（SMILES 字符串）。
特征：每个节点包含详细的 78 维特征向量。

深度学习架构

结合配体和蛋白质编码：研究采用了三层卷积神经网络（CNN）进行 1D 编码，以及图神经网络（GNN）进行 2D 图编码。
图卷积网络（GCN）层：这些层在从输入图中学习表示方面至关重要。

实验设置和结果

模型训练：DL 模型在配体和蛋白质编码的组合上进行训练。
评估指标：包括一致性指数、均方根误差、Pearson 相关性和 Spearman 等级相关性。
可访问性：所有代码和模型均公开可访问，展现研究的透明度和可重复性。

主要结果及图表

结合亲和力预测对蛋白接触图预测方法不敏感。

研究者采用 AlphaFold、ESM-1b 和 Pconsc 等方法，对 KIBA 和 Davis 数据集的蛋白接触图进行计算。通过对比实验结构得出，AlphaFold 的表现最佳，ESM-1b 则相对较弱。研究发现，不同的蛋白接触图预测方法对结合亲和力预测的影响较小，无论采用 2D 还是 1D 编码，其预测性能表现相近。

然而，配体编码的变化对深度学习模型的学习任务产生显著影响。不同的蛋白质和配体编码结合方式（如拼接、元素乘积等）对模型预测能力的影响不大，这表明深度学习模型主要从配体编码中学习，而蛋白质特征的作用相对较小。

图 1：深度学习框架在蛋白质-配体结合亲和力预测中的系统评估

A: 从输入序列中提取 1D 蛋白质表示，经 CNN 模块处理后得到蛋白质编码。
B: 2D 蛋白质编码过程中，首先需通过预测接触图的步骤生成蛋白质图形，以从序列提取结构信息。然后，通过图神经网络传递图形，以提取特征并生成蛋白质编码。
C: DL 框架概览。该框架处理输入序列和 SMILES 数据，通过 1D 或 2D 数据结构生成各自的编码。这些编码结合后，输入至全连接神经网络，用于预测结合亲和力。
D: 输入的 SMILES 字符串被转换为 2D 图形，并通过图神经网络处理，以生成配体编码。
E: 蛋白质与配体编码结合，包括连接、元素级乘积，以及将这两者的向量连接。

图 2：KIBA10 和 Davis11 数据集的综合统计

KIBA 包含 188 个蛋白质、2111 个配体和 95,577 个结合互作用，Davis 包含 333 个蛋白质、68 个配体和 22,644 个结合互作用。

A: KIBA 数据集中 KIBA 评分分布图。较低的 KIBA 分数表明结合亲和力更高（≤3）。
B: Davis 数据集中 pKd 分数分布图。较高的 pKd 表示结合亲和力更强，（>7）通常被视为有效的结合体。

图 3：基于不同算法预测的接触图比较

A: 以 PDB ID 5D7 V 为参考，对 PTK-6 的接触图进行分析，左上角为 AlphFold2，右上角为 Pconsc4，左下角为 ESM-1b，右下角为随机接触图。真实接触用青色方块表示，缺失的接触用橙色叉号表示，错误预测的接触用粉色圆圈标出。
B: 在 KIBA 和 Davis 数据集中精选的蛋白质结构上评估接触图方法，结果显示 AlphaFold2 接触图在 MCC 和 F1 分数上表现更优，Pconsc4 接触图预测具有更高平均精度。ESM-1b 接触图预测相对不稳定。

图 4：结构信息对蛋白质编码（2D）在结合亲和力预测上的影响不显著

A, B: 四种蛋白质接触图方法在结合亲和力预测上的性能比较，分别针对 KIBA 数据集（A）和 Davis 数据集（B）。性能指标包括 CI、Pearson 相关系数、Spearman Rank 和均方根误差。结果表明，蛋白质接触图中的结构信息对 DL 模型性能影响不大。
C, D: 三种不同 1D 编码方法及其性能指标（CI、Pearson 相关系数、Spearman Rank 和均方根误差）的对比，ESM-1b 模型的 PLM 编码相较于来自 KLIFS 的手工序列编码表现更优，且与随机编码相当。整体而言，1D 编码的性能与包含蛋白质图信息的编码相似。

图 5：配体编码变化对结合亲和力预测性能的显著影响

测试四种不同配体编码对 DL 模型在结合预测中的性能影响，结果表明 DL 模型对配体编码敏感，无论是 KIBA（A）还是 Davis（B）数据集。其中「原始」编码指从原始 SMILES 字符串生成的配体图，无更改。「点随机」编码指在输入 SMILES 字符串中部分更改原子后获得的图，例如替换卤素原子或去除(=O)原子。「随机节点」编码通过随机化输入配体图的节点特征获得。「随机」编码指从所用数据集中随机采样获得的图的编码。训练期间，DL 模型未学习随机采样和节点特征随机化编码的结合亲和力，突显出模型对配体信息的依赖性。

图 6：KIBA（A）和 Davis（B）数据集上编码组合技术的性能变化微小

「Concat」编码是将蛋白质和配体编码连接而成，「Product」编码则是从蛋白质和配体编码的逐元素乘积中获取。「Concat + Product」是将逐元素乘积编码与连接的蛋白质和配体编码结合。结果显示，结合亲和力预测受元素级乘积和连接操作结合产生的连接向量影响甚微。

比较分析

深度学习模型主要通过学习配体特征来预测蛋白质-配体结合力，而不是依赖于蛋白质信息。

该研究采用多种深度学习模型，例如 CNN 和 GCN，探究这些模型如何从蛋白质序列和配体 SMILES 字符串的不同编码中进行学习。研究者利用 AlphaFold、Pconsc 和 ESM-1b 等三种蛋白质接触图生成方法进行了研究，并与随机对照组进行了对比。

本研究基于 KIBA 和 Davis 数据集进行，涉及 442 种激酶和 68 种抑制剂的选择性测定。为了改善分子图的构建，研究者在每个配体节点中增加了自环，使其表示为一个 78 维的特征向量。

结果表明，目前的深度学习模型主要通过学习配体的特征来预测蛋白质-配体结合力，而不是蛋白质信息。未来的研究需关注现有数据库的拓展、数据表示方法的改进，以及架构的优化，以便更好地学习蛋白质与配体的相互作用。

局限:

数据集和编码范围有限

仅使用激酶数据集（KIBA 和 Davis），可能限制了研究发现对其他蛋白质类型或配体的普遍性。
研究专注于一组特定的编码方法，可能忽略了该领域中其他相关或新兴的方法。

模型性能和解释问题

研究结果表明，蛋白质编码对结合预测的影响有限，这可能与现有文献或药物设计中的实际期望存在冲突。
缺乏对计算药物发现领域更广泛影响的深入讨论。

改进建议

扩大数据集和编码范围

考虑包含更多种类的蛋白质和配体，以增强研究发现的普遍性。
探索并比较额外的编码方法，以提供更全面的分析。

增强模型性能分析

深入探讨蛋白质编码影响有限的原因，以及这与现有研究的一致性或冲突。
讨论研究发现对药物发现的实际影响，可能包括案例研究或假设应用。

参考资料:

Gorantla, R., Kubincová, A., Weiße, A. Y., & Mey, A. S. J. S. (2023). From Proteins to Ligands: Decoding Deep Learning Methods for Binding Affinity Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.3c01208
Data and code at: https://github.com/meyresearch/DL_protein_ligand_affinity
文献下载(复制链接到外部浏览器打开): https://is.gd/mhrfuG

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,732评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,496评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,264评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,807评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,806评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,675评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,029评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,683评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,704评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,666评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,773评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,413评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,016评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,204评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,083评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,503评论 2赞 343