本文主要工作内容:
(1)使用HMM和NCBI-CDD对基因家族进行鉴定
(2)使用几个网站对基因家族表达蛋白质的简单性质进行分析
2.基因家族鉴定与基本特征探究
2.1 基因家族鉴定
2.1.1 软件下载
鉴定基因家族需要使用到hmmer这款软件,我们可以直接使用conda进行安装,若使用源码安装,提供网址如下:http://www.hmmer.org/
2.1.2 利用HMM鉴定
在鉴定过程中需要用到两个文件,一个是我们之前下载的基因家族HMM模型文件,另外一个是处理后的蛋白质序列文件。我们用软链接在新的目录下操作。
当鉴定完成后。可以看到在—domtblout参数的输出文件中,第一列即为我们需要的基因序列id。但是可以看到存在有重复id的情况,这是因为可能一个蛋白序列上存在有多个相似的结构域,因此我们需要在提取id时去重复。此外根据一般文献要求,我们还得保证提取出来的基因this sequence中E-value小于1e-5,根据我的理解这表示比对的可信度更高。最后提取出序列id后我们再到蛋白质序列文件中提取蛋白质序列。这里使用的是seqtk这款软件,我们也直接用conda安装就好。
2.1.3利用NCBI-CDD验证
本质上来说,鉴定基因家族其实依据的就是它的保守结构域。NCBI-CDD(Conserved Domain)保存了大量的蛋白质结构域数据。我们使用HMM模型鉴定出候选基因家族成员后,不妨再使用NCBI-CDD数据库对鉴定到的成员进行验证,看看是否存在假阳性的情况。这里提供NCBI-CDD的网址:https://www.ncbi.nlm.nih.gov/cdd
在这里我们选择CD-Search,进入到鉴定界面
显然这个操作界面比较容易理解。我们把提取到的蛋白质序列文件的内容全都复制下来,然后在左边对话框中粘贴。然后在右边的Expect Value threshold中改为0.00001,使其与我们的e-value标准一致。最后我们点击submit,让它自己运行。
鉴定成功后,我们点击Download下载结果文件,并将它上传(复制)到服务器上。我们这里认定SBT蛋白质家族都含有Peptidases_S8这一保守结构域,因此我们依据结果文件对每条序列中是否含有保守结构域进行筛选,发现第十条序列中并不存在相应的保守序列,因此我们结合这一结果得到最后的蛋白质序列。对其中的序列数进行统计,发现共有54条序列,与文献中鉴定数量保持一致。
2.2 基本特征探究
2.2.1 蛋白质物理与化学特征
所谓的特征,也就是如等电点,分子质量等简单描述蛋白质性质的一些数据表征。这里仅提供网站链接,具体使用相对简单,就不再赘述。https://www.expasy.org/
2.2.2 信号肽鉴定
信号肽的鉴定同样可通过网站进行。文献当中使用TargetP和SignalP用于此类鉴定。由于有现成的网站,这里仅提供链接地址:https://services.healthtech.dtu.dk/service.php?TargetP-2.0,https://services.healthtech.dtu.dk/service.php?SignalP-5.0