Covid19-delta毒株引起的疫情搞得大家人心惶惶,作为一名科学研究人员,自然希望为疫情的控制尽一份力。写这篇帖子是为了将最新开发的alphafold2和Covid19-delta毒株的药物研发结合起来,看一看最新的人工智能技术可以怎样辅助药物研发。这篇帖子只是一时兴起,纯属娱乐,内容也比较粗略,所以求各位看官轻拍!
1、 背景介绍
Covid19-delta毒株的来源
首先Covid19-delta毒株首先是在印度发现的,这个毒株有多厉害,相信大家已经在各种新闻推送里面了解过了,扬州一个老太太让整个扬州城沦为高风险疫区,可见这个毒株有多可怕。
Covid19药物的主要靶点
Covid19的主要结果蛋白包括S蛋白(刺突)、E蛋白(包膜)、M蛋白(跨膜)和N蛋白(核衣壳),在这些结构蛋白中,S蛋白上的突变位点最多,也最关键。Covid19主要是通过S蛋白与宿主细胞表面ACE2受体结合感染宿主细胞,因此S蛋白是绝大多数新冠疫苗发挥作用的主要靶标。Covid19-delta也是刺突蛋白的氨基酸突变所导致的变异,导致其传播能力更强。
本贴的工作主要有(1)通过NCBI检索Covid19-delta的刺突蛋白(spike protein)的氨基酸序列(2)通过序列比对,找到刺突蛋白与ACE2受体蛋白的作用的主要domain
alphafold2构建Covid19-delta的蛋白三级结构。(3)通过zdock对Covid19-delta的刺突蛋白与ACE2受体蛋白进行分子对接。(4)分子动力学模拟Covid19-delta与ACE2受体蛋白相互作用的动态过程。
2、 寻找Covid19-delta毒株刺突蛋白序列
首先我们在NCBI(https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes/)上找到Covid19-delta的序列信息,如图1所示
接下来,在Protein.faa文件中找到刺突蛋白的序列。我找到了3个序列(图2),并且通过DiscoveryStudio比较了三个序列的相似度。结果表明,这三个序列相似度在99%左右。
接下来,我需要知道这个蛋白质的主要参与到与ACE2受体识别的亚基。为了实现这个目标,我在PDB数据库(https://www1.rcsb.org/)中搜索SARS-Covid19 spike protein与ACE2受体相互作用的模型。我找到了6个结果,选择了第二个结果(7KMB,图4),原因是这个结果简单,并且反映出了Spike蛋白与ACE2受体之间相互作用的主要domain。
接下来,需要通过序列比对的方法,找到在Covid19-delta毒株的spike蛋白中与7KMB对应的蛋白序列位点。为了实现这一步,首先将7KMB.pdf文件导入到DS(DiscoveryStudio,以后简称DS)(图5)。F亚基是ACE2 Receptor,G亚基是Spike Domain。提取出G亚基,然后将G亚基的序列比对到前面的3个Covid19-delta的spike蛋白的序列上。结果嘛~,序列差别挺大的(图6)。不过三级结构是什么样的,只有比对之后才知道。接下来就是做序列比对了。
3、 使用alphafold2对刺突蛋白进行建模
既然三个Covid19-delta序列如此相似,那么在三级结构上也会非常相似。我选择了第一个QWE80500.1中与7kmbSpike比对得到的序列作为种子,使用Alphafold2对这段序列进行建模。这个操作比较简单,Alphafold2提供了jupyternotebook,可以直接输入序列,并且使用google colab上的计算资源进行计算(https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb#scrollTo=kOblAo-xetgx)。
输入序列,等待运算完成。大约5-7min,结果就计算出来了(图 8)。从图中可以发现,计算氨基酸构想评分都在80分以上,结果非常好。
4、 使用zdock进行分子对接
接下来,需要使用ACE2与预测出来的蛋白质进行zdock对接。为了简化计算,在对接过程中,我选择了7kmb蛋白中与spike蛋白结合的氨基酸位点作为对接偏好性选项(图9)。
通过zdock,选择ZDock Score最高和RMSD最小的Poses(图10,图11)。
5、 分子动力学模拟,探索刺突蛋白与ACE2之间的相互作用
最后一步,通过分子动力学模拟,描绘在水相环境中对接的蛋白质的动态变化过程。这一步按照分子动力学模拟的常规路线,prepare-protein-》Add Forcefield-》solving-》Dynamics(图12)。
最终经过13个小时运算,获得了100ps的50个comformation。从能量状态来看,似乎这个不是一个非常稳定的状态(图13)。分子动力学动画如图14所示。
总结:本次实验所做的工作只是简单地跑了一个大概地流程,其中很多细节还可以继续深挖,比如pose1中spike protein与ACE2受体蛋白之间相互作用的氨基酸残基的特点,再比如后期的分子动力学模拟并没有达到稳定的状态。受限于我的计算资源和时间,这个研究还是比较初步的,主要的创新点是使用alphafold2预测了Covid19 spike protein的三级结构,并且粗略展示了一下这个蛋白对接的主要结果。这个研究再写详细一点就是一篇不错的本科毕业论文了。感谢张宝宝帮我把mp4格式转换为gif,并且还帮忙整理了文章格式。好了,这个研究暂时告一段落,接下来继续搬砖去咯!