2022-06-14

Nat Biotech | AI从测序数据中预测蛋白质-配体的结合力

原创 苏安 图灵基因 2022-06-14 07:03 发表于江苏

收录于合集#前沿生物大数据分析

撰文:苏安

IF54.908

推荐度:⭐⭐⭐⭐⭐

亮点:

1. 作者描述了一种灵活的机器学习方法,称为ProBound,它可以量化平衡结合常数或动力学速率来准确地实现序列识别,并且在量化转录因子(TF)模型中预测结合力的效果大大超越其他资源。

2. ProBoundKD-seq方法结合分析时,可以预测蛋白质-配体的结合亲和力;ProBound也可以应用于激酶-底物相互作用的动力学研究。ProBound为解码生物网络和量化蛋白质-配体相互作用开辟了新的途径。

生命由细胞构成,细胞中的重要过程(比如细胞调控和信号转导)高度依赖序列特异性的蛋白质-配体的相互作用,因此,全面定量地分析序列识别对解码这些分子网络至关重要。虽然大规模并行测序提高了序列识别的速度,但是目前并未精确量化分子之间相互作用的生化物理参数。

近期,在Nature biotechnology杂志上发表了一篇名为“Prediction of proteinligand binding affinity from sequencing data with interpretable machine learning”的文章,本文的研究人员通过建立一种“ProBound”的机器学习框架,以平衡结合常数和动力学速率来定义序列识别,实现了对蛋白质-配体结合亲和力的预测,并且ProBound在激酶-底物相互作用的动力学中也得到了应用,这项方法为解码生物网络和量化蛋白质-配体相互作用开辟了新的途径。


首先,作者向我们展示了ProBound的框架。ProBound使用三层对多库测序数据进行系统建模(图1):结合层使用序列识别模型预测序列的结合自由能或酶效率;分析层编码生成文库的选择步骤,并预测所有配体的频率;测序层对测序过程中文库的随机采样进行建模。这些层被合并成一个函数,该函数被优化以推断识别模型。每一层都具备可扩展性,可以联合多种分析方法,实现复杂现象的解析(如酶修饰和甲基化)。图1.ProBound方法的概述


为了在更广泛的范围内量化TF的序列识别,作者利用已经发表的SELEX数据库对算法进行训练,得到了1632个绑定模型(图2a)。为了评估模型的性能,作者将每个TF与已发表的蛋白结合微阵列(PBM)、染色质免疫沉淀测序(ChIP-seq)和非训练SELEX数据联系起来,并计算了三个互补的性能指标:有意义的亲和折叠范围(MAFR),模型解释的信号方差的比例r2,精度召回曲线下的面积(AUPRC)。结果显示,ProBound在所有指标上都优于当前的资源(图2b)。图2.TF绑定模型性能的验证


除了序列本身影响TF的序列识别之外,辅助因子的相互作用和DNA甲基化也会影响TF的序列识别。为了量化在辅助因子作用下TF的特异性和协同性,作者团队利用三个高度保守的果蝇同源结构域蛋白形成的复合物:同胸(Hth)、胞外膜(Exd)和超胸(Ubx)来建模分析。为了表征Hth:Exd:Ubx,作者首先对所有三个因素进行了SELEX-seq,然后将这些数据与之前的单体和异质二聚体数据结合进行分析(图3a)。结果显示,当Hth结合Exd:Ubx上游的8-13个碱基对(bp)时,模型具有显著的协同性(ΔΔGconfig≈2RT)(图3b)。为了量化甲基化对模型的影响,作者同时学习了所有三种二聚体的甲基化感知结合模型(图3c),作者使用ChIP-seq数据来估计体内这些位置特异性甲基化敏感性的影响,发现甲基化显著影响了模型预测的结合方向(图3d),并且其他的DNA修饰方式如6mA、5hmc也会对TF产生影响(图3e)。图3.互补分析的综合建模量化了甲基化和辅助因子对TF结合的影响


当前测试方法的局限性是仅能用于蛋白-配体相对亲和度的分析,为了能够实现蛋白-配体绝对亲和度的分析,作者开发了名为KD-seq的检测方法。KD-seq使用一个和规则关联的三个库的相对配体频率来推断绝对结合概率,然后以一种修正结合饱和的方法转换为KD估计值(图4a)。作者首先在低DNA和TF浓度(分别为100nM和20nM)下使用果蝇同源结构域蛋白远端无端(Dll)测试KD-seq,以实现强富集和避免过度结合饱和。所得到的模型(图4b)准确地预测了KD中束缚库和自由库中超过三个数量级的富集情况(图4c)。为了验证,作者使用标准电迁移率测定法测量了最优模型预测的结合位点和三个次优序列的KD值,发现了很好的定量一致性(图4d),尽管在几种条件下,最高亲和序列的KD估计值是相似的,但当TF浓度比KD极高或DNA浓度远高于TF时,它就发生了变化(图4e)。图4.ProBound推断绝对KD值。


为了从ChIP-seq数据中了解它们在体内的影响,作者使用ProBound发现了驱动IMR90细胞系中糖皮质激素受体(GR)ChIP-seq数据选择的因素。研究发现了4种结合模型:一种与GR序列一致,另外3种与已知的GR辅助因子AP-1、FOXA1和TEAD一致(图5a)。多浓度模型是建立在每个文库被有意下调到105次或0.03次基因组序列的数据上(kb)构建的。因此,即使在极低的覆盖率下,ChIP-seq数据也明确地包含了足够的信息来可靠地推断TF结合模型,并量化具有生物学意义的细胞状态参数。两种GR结合模型的自由能参数与体外数据(r2=0.97和r2=0.92;图5a,b),表明体外和体内结合特异性的观察实际上是高度一致的。

图5.ProBound使用无峰ChIP-seq分析学习定量结合模型和样本特异性TF活性


为了探究激酶-底物相互作用的动力学,作者在一个固定的中心酪氨酸周围随机化10个氨基酸残基,并将该文库暴露在c-Src中(图6a),将推断出的效率模型可视化为一个序列标志(图6b),显示了与早期研究一致的有利残基的位置特异性模式。该模型还准确地捕获了所有三个时间点在keff的100倍范围内观察到的磷酸化肽的部分(图6c),为了验证该模型,作者使用高效液相色谱(HPLC)测量了11个多肽的磷酸化率,它们的归一化初始磷酸化速率的测量值在ProBound模型预测的方向上有显著差异(图6d)。图6.ProBound定量了酪氨酸激酶c-Src的序列依赖性动力学


本文作者向我们展示了,通过明确地建模分析过程,我们可以使用机器学习准确地量化生物物理参数。作者预计ProBound能够实现的序列识别的准确和无偏分析将在生物技术领域有许多应用,其中配体或底物的合理工程设计至关重要。

教授介绍:

Harmen J. Bussemaker

Harmen J. Bussemaker是是生物科学系的主席和教授。Bussemaker博士以其通过整合有关基因组序列,转录因子结合和基因表达数据的信息来理解基因调控网络的开创性努力而闻名。Bussemaker实验室使用高通量测序和基于亲和力的选择,旨在以前所未有的分辨率量化转录因子的DNA结合特异性。他还使用生物物理模型从全基因组mRNA表达水平推断转录因子调节活性的细胞状态特异性变化。

参考文献:

Rube, H.T., Rastogi, C., Feng, S. et al. Prediction of protein–ligand binding affinity from sequencing data with interpretable machine learning. Nat Biotechnol (2022).https://doi.org/10.1038/s41587-022-01307-0

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容