插件 | 地表最强 Hmmer Search 界面工具

写在前面

从某个物种中鉴定某个家族的全部成员,一般有两种操作:

  1. 基于Domain,用hmmsearch等软件
  2. 基于序列相似性,用BLAST等软件

事实上,我个人是推荐第二种,尤其是目前绝大多数物种的基因结构注释存在问题。使用第一种,遗漏的几率更大,比如正好保守结构域区段没有被注释出来。当然,使用第二种,则有一定可能引入假阳性。当然了,后者完全可以通过进一步多类证据整合查看。这也就是可视化存在的意义(TBtools 的三图合一)。
然而,第一种确实是很快,也一直被更多人推崇。我也并不反对。所以,很久以前,在 TBtools 中放了一个功能。


具体可以参考推文《使用HMM进行基因家族鉴定?无人不能》。两年后,再来看实现逻辑,Ugly!
于是,我一边带娃,一边写了今天这个插件(其实是委托运营团队的 Feature Request)。

写完这个插件,我个人还是比较满意。毕竟从某个角度来说,TBtools又少了一些被人吐槽的点(尽管我还是不明白,不就HMM,有啥好吐槽的),也多了一个极度友好的功能!

使用极其简单

正如上图,用户只需要关心:

  1. 输入文件 - 查询信息 和 序列库
  2. 输出文件

对于输入文件一,支持三类,且自动识别:

  1. PFAM ID,如 WRKY 结构域为 PF03106,MYB 结构域为PF00249,这些可以直接在 PFAM 数据库上找到,更或者在一些文献中会注明。
  2. 多序列比对结果,如果果胶甲基酯酶 PME 家族,这类结构蛋白,常常不像转录因子,不一定有保守结构域在PFAM上。可以自己拿不同物种已知的PME蛋白序列,用TBtools 的MUSCLE Wrapper或者其他多序列比对软件,得到的比对结果(无需注意比对结果格式,兼容几乎所有多序列比对格式,如Fasta,Clustal,PAML等),直接用作输入。
  3. HMM库,比如整个Pfam_A.hmm数据库,当然也可能是某几个感兴趣的保守结构域的HMM。

而对于输入文件二,简单,反正就是一个蛋白序列库,下文我们直接使用香蕉所有蛋白序列集合。
至于输出文件...给个路径就行了。
下面,用三个使用实例来介绍具体使用方法。

实例一 - 直接使用 PFAM ID 列表

前述提到,转录因子WRKY和MYB家族的Pfam IDs分别为 PF03106 和 PF00249。这些可以直接在Pfam数据库查到



使用这两个Pfam ID,我们就可以直接筛选出所有香蕉可能的WRKY和MYB家族成员。使用方法如下



非常快

点击确定,即可直接跳转到输出文件



一般 TBtools 用户只需要看 XLS,打开就知道了

堪称完美!这个格式,可以直接用于结构域可视化。毕竟是 TBtools 用不,应该知道怎么获取对应序列的序列长度,然后用 Simple BioSequence Viewer 或者 Advanced Gene View 做可视化。
我鼓捣鼓捣,大概是这样一张图

实例二 - 直接使用多序列比对结果

正如前面提到的,有一些家族并没有保守的 Pfam IDs,我们可以直接使用一些已知家族成员蛋白序列(即使他们来自于不同物种),做一个多序列比对之后,用于输入。



下载完了就用MUSCLE比对




如果你没听我的劝告,点击“Directly Viz...”,那么会看到

或许这里面就有保守结果域吧,肉眼看看比对效果也挺好的。
保险起见,还是直接比对输出 clutalw 格式(试了下,似乎TBtools Fasta2Clutal在特殊字符下会失效)



OK,继续

自动弹出结果....

Emmm,似乎数目有点多。对比了下HMM的结果和香蕉基因组注释的结果

当然我们有理由相信,假阳性没那么高(HMM得到的多了46个,得详细看看了),尽管存在。多少估计还是要精细看看,不过偏离主题了。

实例三 - 使用已有的HMM库,如Pfam_A.hmm

有些时候,用户会自己下载一些.hmm库,或者从其他什么地方拿到。比如实例一中,用户也可以自己下载WRKY结构域的.hmm和MYB的.hmm文件,合并之后用这种方式来输入。这个模式的开放,其实对我来说,估计还是直接上Pfam_A.hmm全库。比如我鉴定了某个家族,香蕉的某某家族。这里我们就用香蕉基因组注释的PME蛋白序列,大概也就75个基因。我们看看注释得如何,都有什么结构域。
于是可以直接下载Pfam_A.hmm全库,跑上



Emmm,大概也就一两分钟。



也可以做个可视化

写在后面

Emmm,整完了。又是一个插件。作为委托团队的Feature Request。这个插件纳入众筹系列(未定价)。先想想再说~~ 感兴趣的朋友,可看看这两天插件商店的更新。对插件商店不了解的,建议看看推文《Plugin | 高速版插件商店!我又有一个绝妙的 idea》。
是谁?说 TBtools 不好用了~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容