这一推送将简单介绍:
1. 寻找蛋白质结构域
2. 简单预测序列的理化性质
4. 预测蛋白酶降解位点
5. 预测卷曲螺旋区域(coiled-coil domains)
6. 预测翻译后修饰
再介绍之前说过的网站,这一章会用到很多次:
ExPASy
https://www.expasy.org/
一、预测蛋白质的理化性质和酶解位点
1. 理化性质
利用ExPASy网站中的ProtParam工具(tools栏下面),可以简单的分析一个氨基酸序列的理化性质。
打开ProtParam后,可以输入要查的已上传序列的序列号或者直接粘贴氨基酸序列(如果你的序列是FASTA格式,不要粘贴首行的“>等”信息)。
上图就是结果显示页面,我用黄色荧光笔标的N,C-terminal是指,如果你只想显示这段序列的某一部分的结果,可以在框里限定范围。
结果显示这里点进去(黄色标记部分),可以展示对应的更多的信息。比如:
氨基酸数
分子量(仅根据序列残基计算得到的,计算结果不包含糖基化、磷酸化等翻译后修饰;成熟蛋白质前导肽的删除;多聚体形成等)
等电点
原子组成
原子数
消光系数(是指蛋白质对特定波长的光的吸收量,后期用分光光度计测定得到纯化蛋白浓度等可能会用到,网页显示的是理论消光系数,真实值还会受其他因素影响。不过一般情况下,两值相差不大。)
不稳定性系数(一般这个指数小于40,则说明稳定;大于40不稳定)
脂溶指数(Instability index)
总平均亲水性(Grand average of hydropathicity (GRAVY),定义为序列中所有氨基酸亲水值的总和与氨基酸数量的比值,负值越大表示亲水性越好好,正值越大表示疏水性越强)。
2. 酶解位点
依旧是ExPASy-proteomic-tool里面的工具—— PeptideCutter 。
二、预测蛋白质初级结构(一级结构-primary structure)
注意这里分析预测的是初级结构,即对蛋白质氨基酸序列的分析,而非二级结构、高级结构等。分析序列初级结构是为了找到蛋白质中特殊组成的片段,这些片段可以揭示蛋白质的一些有趣的性质,比如氨基酸序列的疏水区域(蛋白跨膜区域,可将自身锚定在膜中);卷曲螺旋区域(许多含有卷曲螺旋结构的蛋白质具有重要的生物学功能,暗示存在蛋白质-蛋白质互作)。
1. 寻找跨膜片段
预测蛋白序列中的跨膜片段可以告诉我们很多信息,比如在N端有一个跨膜片段的可能是分泌蛋白;如果一个蛋白序列包含很多跨膜区域,它可能是一个通道蛋白。下面介绍两种方法:
(1)Protscale
原理是滑动窗口(sliding-window)判断蛋白质序列的疏水性,返回的结果也是疏水性曲线(亲水用负值表示,疏水用正值表示),需要我们自己进行分析。
https://web.expasy.org/cgi-bin/protscale/protscale.pl
首先打开网页,以序列号为P78588的蛋白质为例(目前的研究已知它有7个跨膜片段)。
选择这个Hphob. / Kyte & Doolittle或者Eisenberg et al.,比较适合查找序列中的跨膜片段。
选择window size是19,适合寻找跨膜结构域(这个大小根据你要查找的结构域的一般大小进行设定,比如跨膜结构域一般为21aa,所以这里我们设置的值为19)。然后点击submit就可以啦。
结果显示如下,点击进去看,可以看到详细的结果和绘制的图片。
Hphob. / Kyte & Doolittle
(一般以1.6 score为准线)
Hphob. / Eisenberg et al.
(一般以0.4 score 为准线)
输出结果是疏水性曲线,我们只根据强信号判断跨膜片段所在的位置,两个不同的表,计算出来的曲线的强信号位置差别不大,其中有六个预测的片段位置可以比较确定,1个不能准确预测。
(2)TMHMM
基于 HMM 方法的蛋白质跨膜区预测工具,不是在ExPASy网站中,而是CBS的网站。CBS同样有着很多好用的序列分析的工具:
https://services.healthtech.dtu.dk/
这里面找到TMHMM:
https://services.healthtech.dtu.dk/service.php?TMHMM-2.0
我们粘贴蛋白质P78588的FASTA格式,提交。
可以看出来,使用滑动窗口原理的Protscale与使用隐马尔科夫模型的TMHMM得到的结果可以大致对应的上。而且TMHMM除了可以预测跨膜片段外,还可以预测某段蛋白是在胞内还是胞外(有的预测也不是很精确,比如234-255aa就没有描述胞内外)。
如果是要获得精准的蛋白跨膜片段的预测,建议使用原理不同的方法进行预测和总结。
2. 寻找卷曲螺旋区域
卷曲螺旋区域常参与蛋白质的互作。可以利用ExPASy-COILS工具进行查找。
https://embnet.vital-it.ch/software/COILS_form.html
三、预测蛋白质翻译后修饰
蛋白质在发挥生物学功能之前一般需要经过修饰,叫做post-translational modifications(PTM)。修饰包括加官能团、改变氨基酸化学性质或者改变结构,PTM是细胞信号传导中的重要组成部分。
加入官能团
乙酰化、烷基化、生物素化、谷氨酸化、甘氨酸化、糖化、异戊二烯化、硫辛酸化、磷酸泛酰巯基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化
加入其他蛋白质或肽
干扰素激活基因化、小泛素相关修饰化、泛素化
改变氨基酸的化学性质
瓜氨化、脱氨化
结构改变
双硫键、分解蛋白质
寻找PROSITE patterns
使用ExPASy网站的PROSITE工具。值得注意的是,有时候对应的是短序列(小于20aa的对应),其功能不一定就是那个,查找结果仅是一个预测。对应的越长,功能也一致的可能性越高。
下面就打开网页开始吧:
https://prosite.expasy.org/scanprosite/
可以看到有三个选择对应不同的目的,我们以P12259为例。
这个工具的使用手册在这里:
https://prosite.expasy.org/scanprosite/scanprosite_doc.html
读一读,方便看懂检索设置和结果页面。结果中展示的都可以点进去,展开详细信息。
刚刚看到ExPASy首页说10月15要更新网站,界面改版。我想,操作上不会差太多的,只会更加便捷和简约。
四、寻找蛋白质中的已知结构域(domian)
结构域是蛋白质的结构单元,是构成三级结构的独立单元。一般蛋白质由2-3个结构域组成,通常结构域有特定功能:可能与其他蛋白质互作、结合离子、具有活性位点等。
网上有很多查找结构域的工具,各有优缺点,最好都试一试,然后综合一下结果。
1. 使用InterProScan
http://www.ebi.ac.uk/interpro/search/sequence/
我们以这个蛋白质为例(P53539),有一些高级选项,默认检索数据库是全部勾选的,分析时间会有点长。
结果显示如下,可以看见在各个数据库中的结果都显示序列中间有亮氨酸拉链(Leucine zippers),所以这个结果比较可靠。所以分析序列的时候,最好选择很多检索数据库,且确定前最好再比较一下序列。
2. 使用CD server(Conserved Domain)
https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi
CD的一个有点就是展示出的结果有打分和序列比对的展示,可以帮助我们判断结果可靠性,但是CD数据库中的数据不如上一个全。分析设定上默认Evalue是0.01,如果检索结果很少,可以改为1放宽要求。Apply low-complexity filter一般也不勾选,否则可能过滤掉很多信息。
3. 使用Motif Scan
https://myhits.sib.swiss/cgi-bin/motif_scan
这个里面包含数据更多,下面我们来看一看。
Match Map显示了结构域再序列中的对应位置。下面有详细的得分,Evalue和图等信息。
其详细结果显示不按照得分高低排列,比较确定的结构域有个感叹号,不确定的是问号。点击match detail有不同颜色bar的解释。
六、其他网站推荐
CBS
http://www.cbs.dtu.dk/services/
Hits
https://myhits.sib.swiss/
InterPro
https://www.ebi.ac.uk/interpro/
往期相关内容:
【陪你学·生信】五、当你有一段待分析的DNA序列(基础操作介绍)