gmx cluster命令学习

全文总结

gmx_mpi cluster -f md_*_mol.xtc -s md_*.tpr -method gromos -o rmsd-clust_*.xpm -g cluster_*.log -dist rmsd-dist_*.xvg -cutoff 0.3 -clid clust-id_*.xvg   -cl   clusters_*.pdb -tu ns

输出:

1. rmsd-clust_*.xpm (重要)可以通过对比不同的xpm文件,看到蛋白质dynamics的差异。例如native的蛋白类别相比mutation的类别少,更稳定。但是这个图形不够直观,查找更直观的二维散点图。

2. clust-id_*.xvg (重要)1->2->3->4->5->6能量依次上升,1,2,3是主要构象,可以估算出自由能差,1和2,1和3之间的转移次数多,能垒小。每个时间对应的cluster,可以大略的看Cluster之间的转移,但是没法统计每类之间的转移次数,如果要统计需要自己写程序

3. clusters_*.pdb(重要) 代表结构

4. cluster_*.log 用来检查每一个Cluster的信息

5. rmsd-dist_*.xvg 用来检查


聚类对象:

不同结构之间的距离,其可以由fitting 后的RMS deviation 或 原子对距离的RMS deviation来衡量。距离可以直接通过轨迹或者-dm .xpm获得。


聚类方法:

方法一:single linkage: 一个结构的距离比其他所有的距离小于cutoff的为一类。(add a structure to a cluster when its distance to any element of the cluster is less than cutoff.)

方法二:Jarvis Patrick: 一个结构和一类中的所有结构直接的距离小于cutoff。(add a structure to a cluster when this structure and a structure in the cluster have each other as neighbors and they have a least P neighbors in common. The neighbors of a structure are the M closest structures or all structures within cutoff.)

Monte Carlo: 采用MC的方法来取进行分类的顺序,即帧的RMSD以最小幅度增加。这样可以获得光滑的变动。分类最后的结果可以看到在xpm矩阵中,从下到上是均匀变化的。(reorder the RMSD matrix using Monte Carlo such that the order of the frames is using the smallest possible increments. With this it is possible to make a smooth animation going from one structure to another with the largest possible (e.g.) RMSD between them, however the intermediate steps should be as small as possible. Applications could be to visualize a potential of mean force ensemble of simulations or a pulling simulation. Obviously the user has to prepare the trajectory well (e.g. by not superimposing frames). The final result can be inspect visually by looking at the matrix .xpm file, which should vary smoothly from bottom to top.)

diagonalization: diagonalize the RMSD matrix.

方法三:gromos: 一种算法,使一类中的neighbor最多。(use algorithm as described in Daura et al. (Angew. Chem. Int. Ed. 1999, 38, pp 236-240). Count number of neighbors using cut-off, take structure with largest number of neighbors with all its neighbors as cluster and eliminate it from the pool of clusters. Repeat for remaining structures in pool.)


输入:

-f      [<.xtc/.trr/...>]  (traj.xtc)      (Opt.)

          Trajectory: xtc trr cpt gro g96 pdb tng

-s      [<.tpr/.gro/...>]  (topol.tpr)

          Structure+mass(db): tpr gro g96 pdb brk ent

-n      [<.ndx>]          (index.ndx)      (Opt.)

          Index file

-dm    [<.xpm>]          (rmsd.xpm)      (Opt.)  从别的分析中获得的距离矩阵

          X PixMap compatible matrix file 


输出文件:


-o      [<.xpm>]          (rmsd-clust.xpm) //默认输出, 将RMSD值写在矩阵的左上角,将集群的图形化描述写在右下角,当-minstruct = 1时,即两个结构位于同一集群中时,图形为黑色。当-minstruct > 1不同的颜色将用于每个集群。

          X PixMap compatible matrix file

* -o writes the RMSD values in the upper left half of the matrix and a graphical depiction of the clusters in the lower right half When -minstruct  = 1 the graphical depiction is black when two structures are in the same cluster. When -minstruct > 1 different colors will be used for each cluster.

-g      [<.log>]          (cluster.log) //默认输出,包含所有输出信息,其中124次transition是指所有transition次数加起来除以2;cl.(cluster 1) | #st(structure number)  rmsd(cluster中的rmsd,应该小于设置的cutoff,但是最后的group似乎不符合要求) | middle(代表帧的时间) rmsd(其对应rmsd) | cluster members(每个structure对应的时间)

          Log file

* -g writes information on the options used and a detailed list of all clusters and their members.

Cluster1
cluster 4 5 6

-dist  [<.xvg>]          (rmsd-dist.xvg)  (Opt.) //默认输出,横坐标是RMSD,纵坐标是个数

          xvgr/xmgr file

* -dist writes the RMSD distribution.

-om    [<.xpm>]          (rmsd-raw.xpm) //输入的xpm重新输出一次,不需要

          X PixMap compatible matrix file

-ev    [<.xvg>]          (rmsd-eig.xvg)  (Opt.)   //计算RMSD对角化矩阵特征向量,测试并未输出,有bug

          xvgr/xmgr file

* -ev writes the eigenvectors of the RMSD matrix diagonalization.

-sz    [<.xvg>]          (clust-size.xvg) (Opt.)  //每个cluster中的结构数,总数为帧数。已经包含在log中。

          xvgr/xmgr file

* -sz writes the cluster sizes.


-clid  [<.xvg>]          (clust-id.xvg)  (Opt.) //每个时间对应的cluster编号,可以看Cluster之间的转移

          xvgr/xmgr file

* -clid writes the cluster number as a function of time.

-clndx  [<.ndx>]          (clusters.ndx)  (Opt.) //将cluster对应的 帧数(不是原子序号)! 写入trjconv的指定索引文件。该信息已经包含在log文件中。

          Index file

* -clndx writes the frame numbers corresponding to the clusters to the specified index file to be read into trjconv.


clusters.ndx 帧数写入Cluster文件,方便看

Cluster之间的转移:

-tr    [<.xpm>]          (clust-trans.xpm) (Opt.) //计算cluster之间的transition次数,不好看,不如看clust-id.xvg直观

          X PixMap compatible matrix file

* -tr writes a matrix of the number transitions between cluster pairs.

6*6的矩阵,不好看,代表类别之间的trans,无trans为白色

-ntr    [<.xvg>]          (clust-trans.xvg) (Opt.) //计算cluster之间转移的总次数,例如cluster6有1个结构,则有2次trans,cluster5有2个结构,则有4次trans,注意,并不是说一个结构对应一次trans,如果是时间连续的结构,例如t=1,2,3,5对应Cluster1,t=4对应cluster2,则t=1-5之间,有两次trans

          xvgr/xmgr file

* -ntr writes the total number of transitions to or from each cluster.


Cluster的代表结构:

-cl    [<.xtc/.trr/...>]  (clusters.pdb)  (Opt.) // 写每个cluster的平均(使用选项-av)或中心结构,或者为选定的一组cluster用集群成员写编号的文件(使用选项-wcl,取决于-nst和-rmsmin)。集群的中心是与集群所有其他结构相比平均RMSD最小的结构

          Trajectory: xtc trr cpt gro g96 pdb tng

* -cl writes average (with option -av) or central structure of each cluster or writes numbered files with cluster members for a selected set of clusters (with option -wcl, depends on -nst and -rmsmin). The center of a cluster is the structure with the smallest average RMSD from all other structures of the cluster.

重要参数(需要尝试):

-method <enum>            (linkage) //重要!!!选择方法

 Method for cluster determination: linkage, jarvis-patrick, monte-carlo, diagonalization, gromos

-cutoff <real>            (0.1) //重要!!!!在第一次运行后更改,以获得合理的cluster数目

          RMSD cut-off (nm) for two structures to be neighbor

-rmsmin <real>            (0) //输出结构的最小的rms 差距,直接运行一次可以计算得到

          minimum rms difference with rest of cluster for writing structures

与xpm图像显示相关选项:

-nlevels             (40) //重要!!!举例:得到rmsd范围是0.0169-0.0657nm,默认最小rms值设置为   -rmsmin=0,则在xpm中的颜色用(0.0657-0.0)/40=0.0017nm作为间隔,共有40种颜色。

          Discretize RMSD matrix in this number of levels

-max                (-1) // level不设上限,不用改

          Maximum level in RMSD matrix

-minstruct <int>          (1) //集群中用于着色.xpm文件的最小结构数(>1才有颜色),如果一个集群中的结构数=1,则为白色

          Minimum number of structures in cluster for coloring in the .xpm file

-[no]binary                (no) //只有两种颜色

          Treat the RMSD matrix as consisting of 0 and 1, where the cut-off  is given by -cutoff

输出代表结构选项:

-wcl    <int>              (0)  //将指定的集群的结构写入到编号的文件中(猜的),默认所有的集群,不用改

          Write the structures for this number of clusters to numbered files

-nst    <int>              (1) //默认只输出一个结构,如果设置超过这个数,则输出所有结构(猜的),不用改

          Only write all structures if more than this number of structures per cluster

-[no]av                    (no)  //写平均结构(无物理意义),而不是中心结构(representative structure),不用改

          Write average instead of middle structure for each cluster

其他选项

-tu    <enum>            (ps) //设置为ns

          Unit for time values: fs, ps, ns, us, ms, s

-[no]dista                (no) //RMSD是ti和tj之间的RMS,RMS deviation是相对于t0的RMS,不用改

          Use RMSD of distances instead of RMS deviation

-[no]fit                  (yes) //默认fitting,不用改

          Use least squares fitting before RMSD calculation

-[no]pbc                  (yes) //默认不用改

          PBC check

-M      <int>              (10) // Jarvis-Patrick algorithm指定的最小邻居数,不指定时用cutoff距离

          Number of nearest neighbors considered for Jarvis-Patrick algorithm, 0 is use cutoff

-P      <int>              (3) //组成一个集群所需的相同的最近邻居的数量

          Number of identical nearest neighbors required to form a cluster

-seed  <int>              (0) //MC的随机数,0是随机产生一个,不用改

          Random number seed for Monte Carlo clustering algorithm (0 means generate)

-niter  <int>              (10000) //MC循环数,不用改

          Number of iterations for MC

-nrandom <int>            (0)  //MC的第一个迭代可以完全随机完成,以打乱帧,不用改

          The first iterations for MC may be done complete random, to shuffle the frames

-kT    <real>            (0.001) //MC优化的玻尔兹曼加权因子(0的话无优化,即不连续?),不用改

          Boltzmann weighting factor for Monte Carlo optimization (zero turns off uphill steps)

-b      <time>            (0)

          Time of first frame to read from trajectory (default unit ps)

-e      <time>            (0)

          Time of last frame to read from trajectory (default unit ps)

-dt    <time>            (0) //用时间来分割

          Only use frame when t MOD dt = first time (default unit ps)

-skip  <int>              (1) //用帧数来分割

          Only analyze every nr-th frame

-[no]w                    (no)

          View output .xvg, .xpm, .eps and .pdb files

-xvg    <enum>            (xmgrace) //默认用xmgrace打开,不用改

          xvg plot formatting: xmgrace, xmgr, none


具体操作流程:

test0:用默认的做预实验

结果表明:总共955个输入帧数,计算955*955RMSD矩阵。计算得到RMSD从0.10019到0.657485nm,平均RMSD为0.319467,矩阵的能量为18.5475(怎么计算的)。报错:默认的cutoff 0.1nm在 0.10019到0.657485nm之外,即最小的RMSD为0.10019nm,所以每帧自成一类。RMSD的默认最小值0小于0.10019.

默认输出文件:

rmsd-dist.xvg:横坐标是RMS(nm),纵坐标是标准单位,此处是个数,把第二列加和=(955*955-955)/2,即RMS矩阵去掉对角线的一半

cluster.log

rmsd-cluster.xpm :注释,横纵坐标都是Time,从0-95400(当前模拟的时间ps),颜色矩阵

要把注释部分删除,才能用Irfan View打开,否则报错!!!


横纵坐标


颜色


RMSD值写在矩阵的左上角,图形化描述写在右下角。当-minstruct = 1时,即两个结构位于同一集群中时,图形为黑色。当-minstruct > 1不同的颜色将用于每个集群。此结果都是白色,表示没有任何两帧为同一集群。

test1:调整cutoff,调整rmsd的最小值



换了一种算法,gromos算法,RMSD的范围和能量看起来没什么差别,下次设置的RMSD min设为0.10020nm,分成6类

矩阵右下角显示有问题,颜色n也显示成了白色,需要改!!

显示的有问题,需要修正!!
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,279评论 0 10
  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 9,331评论 0 23
  • 引言 The problem of clustering has been studied widely in t...
    matrices阅读 705评论 0 0
  • 二十岁,是一个转折点,是一个新的起点,特别是刚跨出校园的你,不能总是以一个学生的身份自称,也不能总是想着别人能够帮...
    爱笑的鱼十三阅读 180评论 0 0
  • 离恨苦, 相思旧, 归人何许? 花开花落去。 墨笔难书, 今宵温残酒, 断枝柳, 亦难留。 金滩嬉逐, 三千锦墨书...
    子夜月寒阅读 236评论 2 0