【陪你学·生信】六、当你有一段待分析的氨基酸序列

这一推送将简单介绍：

1. 寻找蛋白质结构域

2. 简单预测序列的理化性质

4. 预测蛋白酶降解位点

5. 预测卷曲螺旋区域（coiled-coil domains）

6. 预测翻译后修饰

再介绍之前说过的网站，这一章会用到很多次：

ExPASy

https://www.expasy.org/

一、预测蛋白质的理化性质和酶解位点

1. 理化性质

利用ExPASy网站中的ProtParam工具（tools栏下面），可以简单的分析一个氨基酸序列的理化性质。

打开ProtParam后，可以输入要查的已上传序列的序列号或者直接粘贴氨基酸序列（如果你的序列是FASTA格式，不要粘贴首行的“>等”信息）。

上图就是结果显示页面，我用黄色荧光笔标的N,C-terminal是指，如果你只想显示这段序列的某一部分的结果，可以在框里限定范围。

结果显示这里点进去（黄色标记部分），可以展示对应的更多的信息。比如：

氨基酸数

分子量（仅根据序列残基计算得到的，计算结果不包含糖基化、磷酸化等翻译后修饰；成熟蛋白质前导肽的删除；多聚体形成等）

等电点

原子组成

原子数

消光系数（是指蛋白质对特定波长的光的吸收量，后期用分光光度计测定得到纯化蛋白浓度等可能会用到，网页显示的是理论消光系数，真实值还会受其他因素影响。不过一般情况下，两值相差不大。）

不稳定性系数（一般这个指数小于40，则说明稳定；大于40不稳定）

脂溶指数（Instability index）

总平均亲水性（Grand average of hydropathicity (GRAVY)，定义为序列中所有氨基酸亲水值的总和与氨基酸数量的比值，负值越大表示亲水性越好好，正值越大表示疏水性越强）。

2. 酶解位点

依旧是ExPASy-proteomic-tool里面的工具—— PeptideCutter 。

二、预测蛋白质初级结构（一级结构-primary structure）

注意这里分析预测的是初级结构，即对蛋白质氨基酸序列的分析，而非二级结构、高级结构等。分析序列初级结构是为了找到蛋白质中特殊组成的片段，这些片段可以揭示蛋白质的一些有趣的性质，比如氨基酸序列的疏水区域（蛋白跨膜区域，可将自身锚定在膜中）；卷曲螺旋区域（许多含有卷曲螺旋结构的蛋白质具有重要的生物学功能，暗示存在蛋白质-蛋白质互作）。

1. 寻找跨膜片段

预测蛋白序列中的跨膜片段可以告诉我们很多信息，比如在N端有一个跨膜片段的可能是分泌蛋白；如果一个蛋白序列包含很多跨膜区域，它可能是一个通道蛋白。下面介绍两种方法：

（1）Protscale

原理是滑动窗口（sliding-window）判断蛋白质序列的疏水性，返回的结果也是疏水性曲线（亲水用负值表示,疏水用正值表示），需要我们自己进行分析。

https://web.expasy.org/cgi-bin/protscale/protscale.pl

首先打开网页，以序列号为P78588的蛋白质为例（目前的研究已知它有7个跨膜片段）。

选择这个Hphob. / Kyte & Doolittle或者Eisenberg et al.，比较适合查找序列中的跨膜片段。

选择window size是19，适合寻找跨膜结构域（这个大小根据你要查找的结构域的一般大小进行设定，比如跨膜结构域一般为21aa，所以这里我们设置的值为19）。然后点击submit就可以啦。

结果显示如下，点击进去看，可以看到详细的结果和绘制的图片。

Hphob. / Kyte & Doolittle

（一般以1.6 score为准线）

Hphob. / Eisenberg et al.

（一般以0.4 score 为准线）

输出结果是疏水性曲线，我们只根据强信号判断跨膜片段所在的位置，两个不同的表，计算出来的曲线的强信号位置差别不大，其中有六个预测的片段位置可以比较确定，1个不能准确预测。

（2）TMHMM

基于 HMM 方法的蛋白质跨膜区预测工具，不是在ExPASy网站中，而是CBS的网站。CBS同样有着很多好用的序列分析的工具：

https://services.healthtech.dtu.dk/

这里面找到TMHMM：

https://services.healthtech.dtu.dk/service.php?TMHMM-2.0

我们粘贴蛋白质P78588的FASTA格式，提交。

可以看出来，使用滑动窗口原理的Protscale与使用隐马尔科夫模型的TMHMM得到的结果可以大致对应的上。而且TMHMM除了可以预测跨膜片段外，还可以预测某段蛋白是在胞内还是胞外（有的预测也不是很精确，比如234-255aa就没有描述胞内外）。

如果是要获得精准的蛋白跨膜片段的预测，建议使用原理不同的方法进行预测和总结。

2. 寻找卷曲螺旋区域

卷曲螺旋区域常参与蛋白质的互作。可以利用ExPASy-COILS工具进行查找。

https://embnet.vital-it.ch/software/COILS_form.html

三、预测蛋白质翻译后修饰

蛋白质在发挥生物学功能之前一般需要经过修饰，叫做post-translational modifications（PTM）。修饰包括加官能团、改变氨基酸化学性质或者改变结构，PTM是细胞信号传导中的重要组成部分。

加入官能团

乙酰化、烷基化、生物素化、谷氨酸化、甘氨酸化、糖化、异戊二烯化、硫辛酸化、磷酸泛酰巯基乙氨基化、磷酸化、硫酸化、硒化、C末端酰胺化

加入其他蛋白质或肽

干扰素激活基因化、小泛素相关修饰化、泛素化

改变氨基酸的化学性质

瓜氨化、脱氨化

结构改变

双硫键、分解蛋白质

寻找PROSITE patterns

使用ExPASy网站的PROSITE工具。值得注意的是，有时候对应的是短序列（小于20aa的对应），其功能不一定就是那个，查找结果仅是一个预测。对应的越长，功能也一致的可能性越高。

下面就打开网页开始吧：

https://prosite.expasy.org/scanprosite/

可以看到有三个选择对应不同的目的，我们以P12259为例。

这个工具的使用手册在这里：

https://prosite.expasy.org/scanprosite/scanprosite_doc.html

读一读，方便看懂检索设置和结果页面。结果中展示的都可以点进去，展开详细信息。

刚刚看到ExPASy首页说10月15要更新网站，界面改版。我想，操作上不会差太多的，只会更加便捷和简约。

四、寻找蛋白质中的已知结构域（domian）

结构域是蛋白质的结构单元，是构成三级结构的独立单元。一般蛋白质由2-3个结构域组成，通常结构域有特定功能：可能与其他蛋白质互作、结合离子、具有活性位点等。

网上有很多查找结构域的工具，各有优缺点，最好都试一试，然后综合一下结果。

1. 使用InterProScan

http://www.ebi.ac.uk/interpro/search/sequence/

我们以这个蛋白质为例（P53539），有一些高级选项，默认检索数据库是全部勾选的，分析时间会有点长。

结果显示如下，可以看见在各个数据库中的结果都显示序列中间有亮氨酸拉链（Leucine zippers），所以这个结果比较可靠。所以分析序列的时候，最好选择很多检索数据库，且确定前最好再比较一下序列。

2. 使用CD server（Conserved Domain）

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

CD的一个有点就是展示出的结果有打分和序列比对的展示，可以帮助我们判断结果可靠性，但是CD数据库中的数据不如上一个全。分析设定上默认Evalue是0.01，如果检索结果很少，可以改为1放宽要求。Apply low-complexity filter一般也不勾选，否则可能过滤掉很多信息。

3. 使用Motif Scan

https://myhits.sib.swiss/cgi-bin/motif_scan

这个里面包含数据更多，下面我们来看一看。

Match Map显示了结构域再序列中的对应位置。下面有详细的得分，Evalue和图等信息。

其详细结果显示不按照得分高低排列，比较确定的结构域有个感叹号，不确定的是问号。点击match detail有不同颜色bar的解释。

六、其他网站推荐

CBS

http://www.cbs.dtu.dk/services/

Hits

https://myhits.sib.swiss/

InterPro

https://www.ebi.ac.uk/interpro/

往期相关内容：

【陪你学·生信】序

【陪你学·生信】一、生信能帮我们做什么

【陪你学·生信】二、一些你肯定会用到的生信工具和基本操作

【陪你学·生信】三、核苷酸序列数据库的使用

【陪你学·生信】四、蛋白质相关的数据库

【陪你学·生信】五、当你有一段待分析的DNA序列（基础操作介绍）