我们知道蛋白一般由一个或多个功能域所组成,在不同蛋白质组合中出现的不同结构域导致了自然界中蛋白质复杂的多样性。鉴定一个蛋白中的结构域有助于更深入地理解蛋白功能。其中Pfam是一个大型蛋白结构域家族的数据库,每个蛋白家族都由多个序列比对和HMMs(hidden Markovmodels,隐马尔可夫模型)所体现。那么我们利用Pfam做一些转录因子分类相关的工作呢?下面我以番茄中WOX家族的分类为例做出详尽的解答。
首先我们需要进入Pfam,在搜索栏目上输入WOX,下图输出的结果。Homebox domain明显是WOX所含有的domain,这里我们点开PF00046。
这里有关于Homebox domain详尽的介绍,如果要继续做分类的话,注意左边上方的Alignment,继续点击。
这里需要注意的是,如果下面利用HMMER做分类的话,格式一定要选Stockholm,点击下面Generate,相应的文件即可生成在桌面。
下面将桌面的文件传到服务器,我一般利用SecureCrt的rz命令。
接着我们利用HMMER软件做分类。HMMER被用于在序列数据库中搜索同源序列,产生同源序列比对,所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用,例如Pfam等。但是HMMER同时能够处理特定的索引,并不仅仅是多序列比对后产生的profile文件,这个与BLAST很像.
1. HMMER的安装
wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz
tar zxf hmmer-3.0.tar.gz
cd hmmer-3.0
./configure
make
make check
2.HMMER使用方法
phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;
> phmmer tutorial/HBB HUMAN uniprot sprot.fa
jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;
> jackhmmer tutorial/HBB HUMAN uniprot sprot.fa
hmmbuild: 用多重比对序列构建HMM模型;
hmmsearch: 使用HMM模型搜索序列库;
hmmscan: 使用序列搜索HMM库;
hmmalign: 使用HMM为线索,构建多重比对序列;
> hmmalign globins4.hmm tutorial/globins45.fa
hmmconvert: 转换HMM格式
hmmemit: 从HMM模型中,得到一个模式序列;
hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;
hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;
hmmstat: 显示HMM数据库的统计信息
重要的问题说一遍
注意每个程序都是输出文件在前面,输入文件在后面
hmmbuild (建立参考数据的隐马尔可科夫模型)
hmmbuild hd.hmm hd
输入:多重序列比对的文件(Stockholm file)
输出:建立的这些多重序列比对的隐马尔可科夫模型
hmmsearch(查找)
hmmsearch hd.hmm /datastore1/Shared/ITAG3.2_release/ITAG3.2_proteins.fasta > hd.out
ITAG3.2_proteins.fasta是番茄蛋白的注释文件
more hd.out可得
在阈值0.01之内找到10个蛋白,阈值之外正确率明显下降。找到的蛋白可做进一步分析,验证正确性。