|利用AlphaFold_Multimer和ProteinMPNN迭代循环设计出具有高亲和力的蛋白结合物
题目:使用深度学习模型进行蛋白质结合剂的计算机进化,用于结构预测和
文献来源:https://doi.org/10.1101/2023.05.03.539278
代码:https://github.com/KuhlmanLab/evopro
内容:
在设计蛋白质-蛋白质相互作用的计算方法的发展方面已经取得了相当大的进展,但在没有广泛筛选和成熟的情况下工程高亲和力结合物仍然具有挑战性。在这里,作者测试了一个蛋白质设计管道,该管道使用基于迭代轮深度学习(DL)的结构预测(AlphaFold2)和序列优化(ProteinMPNN)来设计PD-L1拮抗剂的自抑制域(AiDs)。受最近治疗设计进展的启发,作者试图创造自抑制(或掩盖)形式的拮抗剂,可以被蛋白酶有条件地激活。将23个从头设计的不同长度和拓扑结构的AiD,与蛋白酶敏感连接子的拮抗剂融合,并在蛋白酶处理和不处理下测试与PD-L1的结合程度。其中9个融合蛋白与PD-L1有条件结合,并选择表现最好的AiDs作为单结构域蛋白进行进一步鉴定。在没有任何实验亲和成熟的情况下,4个AiDs的平衡解离常数(KDs)低于150nM结合,最低的KD为0.9 nM。本文研究表明,基于DL的蛋白质建模可以用来快速生成高亲和力的蛋白结合物。蛋白质-蛋白质的相互作用对生物学中的大多数过程至关重要,改进设计蛋白质结合物的方法将使创建新的研究试剂、诊断和治疗方法成为可能。在本研究中,作者证明了一种基于深度学习的蛋白质设计方法可以创建高亲和力的蛋白结合物,从而不需要广泛的筛选。
1.背景介绍
在过去的15年里,计算蛋白设计已经成为设计蛋白质结合物的一种有效方法。最近的这些方法都是基于蛋白质的原子模型(如rosetta),其中不同序列和构象的相对有利性是通过能量函数评估的模型,如范德华力和氢键。这些方法的一个特点是,它们允许在目标蛋白上指定结合位点。然而,按照传统的计算设计过程,通常需要筛选成百上千个设计的蛋白质来识别结合物。在过去的几年里,深度学习(DL)的进步极大地改进了蛋白质建模的计算方法。结构预测网络,如AlphaFold2(AF2)和RoseTTAFold
已经可以从序列信息准确预测蛋白质结构,而设计网络,如ProteinMPNN 则识别与给定蛋白质主干兼容的氨基酸序列。
在这里,本文介绍了一个名为EvoPro的蛋白质设计管道,它使用一种遗传算法,包括使用AF2和序列多样化的迭代结构预测,从而进化出一组蛋白质来结合预先指定的目标蛋白(图1A)。首先,一组从头设计的微型蛋白序列(从前被设计成一些被定义的结构基序)以及目标蛋白序列都输入到AlphaFold-Multimer。接下来,为了识别更好的序列,作者使用来自AF2置信度分数的适应度函数和设计的结合剂与目标蛋白之间的界面接触数来评估预测的AF2复合物结构(图1a,右)。得分最高的序列用于下一代随机突变和交叉的多样性化,或者使用该复合物结构作为输入,使用ProteinMPNN进行优化(图1a,底部)。每一次迭代,适应度函数选择具有相应预测结构的序列,这些序列具有更好的目标蛋白AF2置信度以及目标蛋白上表面的良好交互作用。
图1 (A)EvoPro是一个循环设计过程,在遗传算法框架内通过结构预测,在序列生成和评分之间进行迭代。序列多样化通过随机诱变或ProteinMPNN(底部,蓝色)完成,而结构预测使用AF2完成。评分步骤包括根据AF2预测计算的三个术语(右,黄色):放置置信评分,使用AF2PAE置信度来估计界面质量;Fold置信评分,使用AF2pLDDT置信度来估计微型蛋白的折叠稳定性;构象稳定性评分,使蛋白质结合形式和非结合形式之间的构象差异最小化。(B)通过(B)增加序列池的大小和序列优化的频率,可以产生更一致和更低的整体适应度得分。每个点代表一个独立的设计轨迹。(C)51个起始支架中所代表的所有拓扑都出现在前100个输出模型中,按照AF2ipTM评分(接口置信度的全局指标)进行排序。(D)评分项作为EvoPro单个轨迹迭代次数的函数。得分项上的权重用w =x表示。在右边,来自EvoPro优化前后的AF2预测的PAE热图。PAE越低,表示越有信心。(E)EvoPro优化前后AF2ipTM评分的分布。分数越大,信心就会越高。(F)RovottadG/dSASA的变化,这是界面质量的独立度量。能量越低,能量就越有利。
EvoPro管道的一个吸引人的特点是,通过迭代结构预测和序列设计,支架可以发生可能有利于结合的构象变化。在更传统的计算设计方法中,伴随界面设计的主干塑造一直是一个挑战。EvoPro在概念上类似于最近描述的其他设计管道,如RoseTTAFold和AlphaDesign,它们将AF2与随机突变结合来设计蛋白质。EvoPro与之前研究的一个区别主要是在ProteinMPNN和AF2之间的迭代交换。用AlphaDesign
创建的序列尚未经过实验验证,而基于rosettafold的幻觉已被用于创建新的蛋白质结构、组装物和与螺旋肽紧密结合的蛋白质。
为了证明EvoPro的实用性,作者为PD-L1拮抗剂设计了各种自抑制域(AiDs),PD-L1是程序性死亡途径的关键组成部分和临床相关的免疫治疗靶点。在这项工作中,作者没有使用抗体作为PD-L1拮抗剂,而是使用了一种可溶性的PD-1变体,该变体已经亲和力成熟,与PD-L1紧密结合(KD< 1nM)。这种拮抗剂被命名为HA-PD1,因为高亲和力PD-1,在动物模型中被证明可以缩小肿瘤。为了调节HA-PD1的活性,使其在PD-L1中具有弱亲和力,直到被蛋白酶激活,作者使用EvoPro设计了一组不同的小蛋白结构域作为Aid,可以与HA-PD1融合并阻断其与PD-L1的相互作用。当HA-PD1连接到Aid的连接体通过蛋白酶处理被裂解时,与PD-L1的结合被恢复。此外,当作为单独的结构域表达时,一些重组AiDs与HA-PD1结合KD值低于150nM。综上所述,EvoPro是一种设计高亲和蛋白结合物的有效方法
2.模型框架以及打分函数
2.1模型框架
EvoPro管道迭代使用AF2结构预测和ProteinMPNN的序列设计来识别序列-结构空间的有利区域。作者为AF2使用了一个运行时优化的协议,它可以在5-10秒内进行结构预测,而不是几分钟。由于ProteinMPNN在每个生成的序列中只运行~1秒,因此不执行任何以高吞吐量方式使用的运行时优化。在每次EvoPro迭代中,可以在几分钟内预测许多序列的结构。
2.2打分函数
每个EvoPro轨迹都试图通过选择和进化具有最佳(即较低的适应度分数)的序列来满足预定义的设计要求(图1A)。为了使用EvoPro进行结合剂设计,作者加入了界面质量(“放置置信度”)、结合剂折叠稳定性(“Fold置信度”)和结合肽态与非结合肽的构象差异(“构象稳定性”)的分数组件(图1a,右)。值得注意的是,对于其他设计问题,可以实现和组合类似的评分术语,作者目前正在进一步探索这一点。
作者对不同的池大小(即种群中氨基酸序列的数量)和采样序列空间的方案(图1B)进行了基准模拟。较小规模的池的轨迹不能一致地产生具有理想的适应度分数的良好设计,经常陷入局部的适应度最小值。增加池的大小通常会导致较低的适应度分数,但也会带来更高的计算费用,因为每个序列必须有预测其结构。
在每一次迭代过程中,EvoPro通过随机突变、交叉或优化ProteinMPNN将突变引入最佳评分序列(图1a,底部)。当使用ProteinMPNN时,af2预测出的HA-PD1结合复合物结构作为输入,允许在结合剂的所有残基位置发生突变。在池的再填充步骤中加入ProteinMPNN显著降低了每个轨迹的总体最小适应度得分(图1b,底部)。为了实现PD-L1拮抗剂自抑制域的设计,作者每10次迭代使用ProteinMPNN重新填充池。然而,后来的基准测试显示,过于频繁地使用ProteinMPNN往往会导致更低的整体适应度分数。
3.用EvoPro生成自抑制结构域
为了设计PD-L1拮抗剂的自抑制域,作者从别人推荐的一套从头设计的微型蛋白支架中选择了51个拓扑结构不同的微型蛋白支架。对这51个起始支架中的每一个,他们运行了5个独立的EvoPro设计轨迹,其中每个轨迹的池含有超过60次迭代的50个序列。总共进行了255条设计轨迹,每个轨迹最终生成25个设计序列,总共得到6375条设计。每个独立的EvoPro轨迹都倾向于收敛于一组高度相似的序列,平均序列恒等式为81%,代表了适应度空间中的一个局部最小值。
作者使用四种不同的支架拓扑作为EvoPro轨迹的起点,包括三螺旋(3H)和四螺旋束(4H),以及2个b链(2H3E)和2个b链(2H4E)混合拓扑的微型蛋白(图1C)。经过EvoPro优化后,前100个结果(按AF2的界面预测模板建模评分(ipTM)排名)包含了每个拓扑,尽管3H束的比例略大(图1C)。这可能表明,要么这种拓扑特别适合靶点蛋白结合界面,或者在所使用的DL模型中对这种拓扑存在一些偏差。
一个具有代表性的EvoPro设计轨迹显示,随着模拟随着迭代的进行,各个分数成分逐渐减少(图1D)。三个分数组成部分是:1)放置置信度得分,表示由AF2的成对预测对齐误差(PAE)得出的界面的大小和质量;2)基于AF2基于残留置信度的pLDDT;3)构象稳定性评分,表示结合剂在单体形式与复杂形式之间的构象差异,最小化结合所需的构象变化(图1A,右)。
放置置信度评分比模拟得到了最显著的改善,表明最初较差的界面演变成了更好的界面(图1D,左)。EvoPro前后的AF2 PAE热图显示了设计界面的可信度有所提高(图1D,右)。构象稳定性评分逐渐降低,有利于预测的序列在结合时的结构变化很小(图1D,左)。折叠置信度评分显示轨迹变化最小,可能是因为被选择的支架是相当稳定的,因此,在轨迹开始时有很高的AF2置信度(pLDDT)(图1D,左)。AF2ipTM置信度表示全局界面置信度,在设计模拟中没有得到优化,也显示了EvoPro优化后目标粘合剂界面的显著改进(图1E)。作者使用基于rosetta的评分指标正交地验证了他们设计的界面质量。
尽管与HA-PD1上相同的表面补丁结合,但每个AiD和HA-PD1之间的特定接触在不同的设计和HA-PD1:PD-L1的相互作用中有所不同(图2)。这表明设计过程不是简单地概括天然接触,而是创建新的接触面。
图2设计接口接触的AF2模型与HA-PD1:PD-L1接口不同。(A)尽管在HA-PD1上有相似的表面补丁,但其设计与天然配体PD-L1(PDB5IUS)具有独特和不同的接触。然而,一个共同的特征是在HA-PD1的疏水口袋中插入了一个疏水残基(用黑色星号标记)。AF2模型在生成图形之前用罗塞塔将能量最小化。在PyMOL中绘制的图中,一些残基被隐藏起来,每个面板中都显示了H68HA-PD1。(B)该表将设计的序列与相应的起始支架序列进行了比较,还为RosettadG/dSASASA和埋藏未满足的氢键(bUN氢键)参数提供了设计模型的评分指标。
4.掩蔽拮抗剂显示出蛋白酶依赖于与PD-L1的结合
作者使用Expi293哺乳动物细胞小规模表达了这23个MAs。分泌的蛋白用镍树脂纯化,并评价洗脱液的产量和纯度。在所有设计中都观察到适当分子量的蛋白质,但某些结构的表达量超过10倍以上。作者选择了13种表达良好且代表多种支架拓扑结构的良好结构进行进一步筛选,使用由Promega开发的基于细胞的PD-L1结合试验。具体实验结果可见表1和图3。
表1掩蔽拮抗剂显示蛋白酶依赖的结合和活性。蛋白酶处理前后蒙面拮抗剂的平均动力学参数表,包括用于SPR结合动力学试验(左)和细胞活性测定(左)的NoMA(“No”)。对于结合动力学,误差代表SD,而一些样品只测试了一次(没有重复,n.r.)。对于细胞实验,误差代表了多个实验中平均半抑制浓度的标准差(图。S6)或单个实验中3个重复的95%置信区间(*)。
图3EvoPro结合物作为PD-L1拮抗剂的自抑制域。在细胞实验中,对天然PD-1:PD-L1相互作用的竞争性抑制驱动荧光素酶的表达,这可以通过监测发光来检测。(A)在(右)和(左)蛋白酶处理的情况下,将各种PD-L1拮抗剂的竞争性结合(颜色键所示)作为蛋白浓度的函数。没有掩罩(“No”)的HA-PD1的活性以黑色表示供参考。从一个单一实验的两个技术重复,以平均±扫描电镜显示。使用(正方形)和不经(圆圈)蛋白酶处理的细胞表面试验的掩蔽拮抗剂的(B)
IC50s。C)结合速率常数(kon)和解离速率常数(koff)。
通过(正方形)和不(圆形)蛋白酶处理结合PD-L1的拮抗剂。结合测量是用生物素化的PD-L1固定在中和霉素芯片上的SPR进行的(图。S7).报告的误差代表了除MA4(n= 1)、MA16(n = 1)和MA20(n = 2)外的至少3个独立实验的SD。
5.将AiDs作为单独表达的蛋白进行特性分析
为了直接测量AiD对HA-PD1的亲和力,作者选择了一个子集作为孤立域表达:AiD4、AiD5、AiD7、AiD9、AiD10、AiD15、AiD19和AiD20。除AiD20外,所有构建物均表达良好,并通过镍亲和层析纯化。所有设计为螺旋束的结构都具有圆二色性(CD)光谱,与222nm和208 nm的a-螺旋形成一致(图4A)。
图4表达为单个结构域蛋白的AiDs被折叠并与HAPD1结合。各种空气中的(A)圆二色谱(CD)光谱和(B)温度熔体。(C)单周期SPR传感器图为设计的艾滋病(彩色线)和选择突变体(灰色线)。生物素化的HA-PD1被固定在中和病毒素芯片上,达到~250反应单位(RUs)的水平。将艾滋病患者和突变体以指定的浓度进行注射,数据符合1:1的结合模型(黑色)。指示的KD值是三个或更多结合度量的平均值。
6.讨论
我们的结果表明,用于结构预测和序列设计的DL模型可以结合起来设计高亲和蛋白结合物。值得注意的是,Aid与HA-PD1具有广泛的结合亲和力。用Rosetta计算的AF2置信度评分和结合能并不能预测AiD5与HA-PD1的结合会比其他设计紧密40倍以上。比较AiD5和AiD4是很有趣的,因为这两个序列是由相同的EvoPro轨迹产生的,并且在界面上只有4个氨基酸差异(图2)。这一结果强调了不断改进计算蛋白质-蛋白质结合能的方法。
EvoPro的一个强大特性是,评分函数可以被定制,以奖励满足预定义需求的序列。本研究包含了一个得分项,它有利于预测在非结合状态下与在结合状态下形成相同结构的结合序列。作者使用了这个评分项,即构象稳定性评分,因为结合时构象的变化会带来能量惩罚。这些aid的一个显著特征是,它们都有快速的速率与kon值大于1×105 M-1s-1。这一结果与不涉及大构象变化的相互作用相一致,因为在结合时发生结构重排的系统中,经常观察到速率较慢。如果没有将未结合状态与结合状态进行比较的评分项,EvoPro经常产生预测在结合时改变构象的序列。这种行为可以通过在评分函数中奖励它来增强,并且可能是设计变构的一个令人兴奋的方法。
在设计HA-PD1的AiDs时,EvoPro得益于AF2倾向于将蛋白与HA-PD1上的PD-L1结合位点对接。这可能反映了一种隐藏在HA-PD1上的疏水表面积的愿望,以及对自然PD-1/PD-L1结合位点的记忆,因为AF2训练集很可能包括与PD-L1结合的PD-1的结构。在与其他目标蛋白的初步模拟中,作者观察到EvoPro很容易找到与已知蛋白质相互作用位点相互作用的结合物,但很难将结合物放置在目标蛋白表面的其他区域(即使评分函数奖励替代结合位点)。如果EvoPro的这一特性是有利的,如果其目标是创造竞争性抑制剂,与自然发生的相互作用竞争,但当一个新的结合表面被靶向时,可能是一个问题。基于细胞的分析中,作者观察到对HA-PD1亲和力最紧密的AiD(AiD5)并不是最有效的,因为在蛋白酶切割连接子后,AiD仍然与HAPD1结合。之前,当使用PD-L1的一种可溶性变体作为HA-PD1的AiD时,作者也观察到了类似的结果。目前在人类中测试的掩蔽PD-L1拮抗剂显示,PD-L1亲和力的变化范围与MA15和MA19相似。这些发现强调了在构建自抑制系统时,生成一组具有不同亲和力的结合剂的实用性,因为最佳的结合力可能取决于生物上的因素。
-------------------------------------------