motif分析-MEME

1 什么是motif分析

在DNA或蛋白的同源序列中,不同位点的保守程度是不一样的,一般来说,对DNA或蛋白质功能和结构影响比较大的位点会比较保守,其它位点则不是很保守。这些保守的位点就称为“模体(motif)”。motif最先是通过实验的方法发现的。motif这个单词就是形容一种反复出现的模式,而序列motif往往是DNA上的反复出现的模式,并被假设拥有生物学功能。而且,经常是一些具有序列特异性的蛋白的结合位点(如,转录因子)或者是涉及到重要生物过程的(如,RNA 起始,RNA 终止, RNA 剪切等等)。目前被人们识别出来的motif也越来越多,如TRANSFAC和JASPAR数据库都有着大量转录因子的motif。

2 分析motif的软件

分析motif发软件很多,如常见的有motif-x、、MochiView、CisGenome等。但这些软件中大部分都是网页版的,无法批量化进行分析,也很难实现自动化。MEME是一款比较经典的motif分析的软件,除了在线版本外MEME还有适用于可适用于dna、rna和蛋白序列。这款软件包含多种功能,包括motif预测、motif富集分析、motif比较分析等。
MEME网址:

2.1MEME分析原理

MEME是一个工具包,包含多个软件。其中MEME是进行motif挖掘的软件,MEME不允许模体中有空位。MAST是在通过MEME得到一个motif之后,在其它的序列中查找这个motif,是MEME的一个后续的分析,可以在MEME运行结束后,通过超级链接继续,也可以通过保存meme的文本格式文件。GLAM2类似于MEME,但允许莫提中有空位。GLAM2SCAN类似于MAST,MAST不允许模体中有空位,GLAM2SCAN允许模体中有空位。MEME有web和Linux两个版本,web版地址:。整个工具包设计逻辑如下:


image.png

2.2MEME实现方法

2.2.1使用示例

meme test.fa -protein -oc result -nostatus -time 1800000 -mod zoops -nmotifs 3 -minw 6 -maxw 13 -objfun classic -markov_order 0(同web版参数)

2.2.2程序说明

-protein 待预测的为蛋白序列
-oc result 输出路径
-nostatus 不将软件计算过程输出到屏幕上
-time 1800000 CPU消耗时间达到<time>后停止计算
-mod zoops motif的分布类型
· oops 每个功能域在每一段序列中都会出现一次,而且只出现一次。这种模式是运算速度最快,而且最为敏感的。但是如果并不是每个序列都包含功能域,那就可能会有不正确的结果。
· zoops 每个功能域在每一段序列中至多只出现一次,可能不出现。这种模式运算速度较快,敏感性稍弱。
· anr 每个功能域在每一段序列中出现的次数不定。这种模式运算速度最慢,可能会多花十倍以上的时间。但是对于功能分布的情况完全未知的情况下,这一参数可能会有帮助
-nmotifs 3 检测到的motif的最大限制
-minw 6 motif最大长度
-maxw 13 motif最小长度
-objfun classic motif检测的函数算法
-markov_order 0 马尔科夫模型使用的顺序

2.2.3软件参数详细说明

Usage: meme <dataset> [optional arguments]
<dataset> file containing sequences in FASTA format
[-h] print this message
[-o <output dir>] name of directory for output files,will not replace existing directory
[-oc <output dir>] name of directory for output files,will replace existing directory
[-text] output in text format (default is HTML)
[-objfun classic|de|se|cd|ce] obxxxxjective function (default: classic)
[-test mhg|mbn|mrs] statistical test type (default: mhg)
[-use_llr] use LLR in search for starts in Classic mode
[-neg <negdataset>] file containing control sequences
[-shuf <kmer>] preserve frequencies of k-mers of size <kmer> ,when shuffling (default: 2)
[-hsfrac <hsfrac>] fraction of primary sequences in holdout set (default: 0.5)
[-cefrac <cefrac>] fraction sequence length for CE region (default: 0.25)
[-searchsize <ssize>]maximum portion of primary dataset to use,for motif search (in characters)
[-maxsize <maxsize>] maximum dataset size in characters
[-norand] do not randomize the order of the input ,sequences with -searchsize
[-csites <csites>] maximum number of sites for EM in Classic mode
[-seed <seed>] random seed for shuffling and sampling
[-dna] sequences use DNA alphabet
[-rna] sequences use RNA alphabet
[-protein] sequences use protein alphabet
[-alph <alph file>] sequences use custom alphabet
[-revcomp] allow sites on + or - DNA strands
[-pal] force palindromes (requires -dna)
[-mod oops|zoops|anr] distribution of motifs
[-nmotifs <nmotifs>] maximum number of motifs to find
[-evt <ev>] stop if motif E-value greater than <evt>
[-time <t>] quit before <t> CPU seconds consumed
[-nsites <sites>] number of sites for each motif
[-minsites <minsites>] minimum number of sites for each motif
[-maxsites <maxsites>] maximum number of sites for each motif
[-wnsites <wnsites>] weight on expected number of sites
[-w <w>] motif width
[-minw <minw>]     minimum motif width
[-maxw <maxw>] maximum motif width
[-allw] test starts of all widths from minw to maxw
[-nomatrim] do not adjust motif width using multiple
 alignment
[-wg <wg>] gap opening cost for multiple alignments
[-ws <ws>] gap extension cost for multiple alignments
[-noendgaps] do not count end gaps in multiple alignments
[-bfile <bfile>] name of background Markov model file
[-markov_order <order>] (maximum) order of Markov model to use or create
[-psp <pspfile>] name of positional priors file
[-maxiter <maxiter>] maximum EM iterations to run
[-distance <distance>] EM convergence criterion
[-prior dirichlet|dmix|mega|megap|addone] type of prior to use
[-b <b>] strength of the prior
[-plib <plib>] name of Dirichlet prior file
[-spfuzz <spfuzz>] fuzziness of sequence to theta mapping
[-spmap uni|pam] starting point seq to theta mapping type
[-cons <cons>] consensus sequence to start EM from
[-brief <n>] omit sites and sequence tables in output if more than <n> primary sequences
[-nostatus] do not print progress reports to terminal
[-p <np>] use parallel version with <np> processors
[-sf <sf>] print <sf> as name of sequence file
[-V] verbose mode
[-version] display the version number and exit

2.2.4结果展示及说明

meme.html -交互式的、可读性强的HTML格式展示的结果
meme.txt -兼容早期MEME版本的纯文本文件结果
meme.xmxxxxl -为机器处理设计的xmxxxxl格式的结果文件
logoN.png.eps - PNG and EPS 格式的miotif logos文件


image.png

注:氨基酸字符大小表示该位点出现8某种氨基酸频率的高低

2.3 注意事项

a)MEME不支持motif中有gap。
b)Linux下Motif检测使用的参数同web版MEME

2.4软件相关文献引用

Timothy L. Bailey and Charles Elkan "Fitting a mixture model by expectation maximization to discover motifs in biopolymers" Proceedings of the Second International Conference on Intelligent Systems for Molecular Biology pp. 28-36 AAAI Press Menlo Park California 1994.

原创文字,如果觉得对你有帮助留下你的赞哦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容

  • GEM(Genome wide Event finding and Motif discovery) 2.GPS和...
    horsefish阅读 1,911评论 0 3
  • cis-regulatory motifs 转录调控 Transcription start site (TSS)...
    思考问题的熊阅读 6,682评论 1 25
  • Introduction What is Bowtie 2? Bowtie 2 is an ultrafast a...
    wzz阅读 5,529评论 0 5
  • CNTK中GPU信息的获取 device接口 CNTK提供了device接口,可以访问gpu的几个基本参数。 获取...
    Jtag特工阅读 342评论 0 0
  • 20多岁刚参加工作,在工地做工程监理。和校友师弟站在刚开挖的基坑前,我就默默的告诉自己未来一定要我所看、所想...
    羽斐阅读 243评论 3 1