预测motif的计算原理(extend motif)

前言:

蛋白质中功能的基本单元是domain,是一种特殊的三维结构,不同结构的domain与其他分子特异性结合从而发挥功能。与此类似,转录因子在于DNA序列结合时,其结合位点的序列也由于一定的特异性,不同转录因子结合的DNA序列的模式是不同的。为了更好的描述结合位点序列的模式,科学家们提出了motif的概念。

image.png

通常我们对结合位点采用统计每个site碱基出现频数

PFM矩阵:

我们可以登录JASPAR网站下载相关的raw PFM矩阵

JASPAR提供了转录因子与DNA结合位点motif最全面的公开数据,共收集了脊椎动物、植物、昆虫、线虫、真菌和尾索动物六大类不同类生物的数据

我们随机挑选某一物种的某一转录因子来说明,下载好如同这样:


image.png

4行分别表示ACGT四种碱基在一定长度的结合序列上的频数分布:


image.png

motif表示特定碱基序列的模式,也就是说一个TF可以结合到多个DNA序列上,每一个site的碱基频数是统计的某一个TF能结合到的所有motif的情况,统计该位点所有motif的碱基频数,
正如PFM矩阵每一列的加和为10,代表这一个TF可能结合到10个motif上,假设这10个motif的长度为9bp,那么统计这10个motif中每一个site的碱基频率即可 ,比方说第一个site,即A出现3次,C出现2次,G出现1次,T出现4次

PWM矩阵:

在PFM矩阵的基础上:

PFM矩阵

计算出碱基频率分布,PFM矩阵每一列的加和为10,代表这一个TF可能结合到10个motif上,假设这10个motif的长度为9bp,那么统计这10个motif中每一个site的碱基频率即可,比方说第一列的site,即A出现3次,C出现2次,G出现1次,T出现4次。每一列各个碱基出现的次数除以10即为其频率:
PPM矩阵

(PPM矩阵第一行第一列元素为,PFM矩阵第一行第一列元素3/10 = 0.3)
利用PPM矩阵我们可以计算一条结合序列出现某种搭配的概率,比方说出现GAGGTAAAC的概率为
P = 0.1x0.6x0.7x1.0x1.0x0.6x0.7x0.2x0.2 = 0.0007056
在PPM矩阵的基础上做校正就可以得到我们的PWM矩阵了。公式为:
image.png

即将PPM矩阵的每个元素除以背景0.25(假设基因组上的ATCG含量相同,均为0.25),然后再取log2
例如,PPM矩阵第一行第一列的0.3,log2(0.3/0.25) = 0.26
这样我们就得到了PWM矩阵:
image.png

我们根据PWM矩阵,可以对序列进行打分,来判断是否为一个潜在的motif,例如
GAGGTAAAC在PWM的相应得分为:
-1.32 + 1.26 + 1.49 + 2.0 + 2.0+ 1.26 + 1.49 - 0.32 - 1.32 = 6.54

分数大于0说明可能是一个潜在的功能位点,小于0则说明是随机序列;
你可以根据已有的转录因子结合序列信息(即你感兴趣的转录因子)去预测你待研究的序列是否是这个转录因子的功能位点(根据打分来判断)

利用seqLogo可视化

seqLogo是一个R包,我们读入刚才下载的表格(按ACGT的顺序添加表的行名)

data <- read.table("MA0007.2.pfm")
#转换为PPM矩阵
ppm <- sapply(1:ncol(data), function(t){ data[[t]] / sum(data[[t]]) })
#转换为PWM矩阵
p <- makePWM(ppm)
#绘图
seqLogo(p)

结果:


image.png

图上的字母越大,说明在该位点出现的频率越高

Chip-seq的motif分析

在Chip-seq call peak中(peak是蛋白结合位点前后,被测的reads在比对时累计出的峰),我们会得到一个summit.bed,这个其实就是peak的峰的碱基(峰的最高点),那么只有一个,我们做motif分析,只有一个碱基肯定是做不了的
通常我们用bedtools slop来对这个summit.bed文件进行extend,即对这一个峰的碱基前后进行extend,从而得到一小段序列(extend 100bp),那么就可以做motif分析了

参考:http://www.bioconductor.org/packages/release/bioc/html/seqLogo.html

https://mp.weixin.qq.com/s/wUmfV2EkSUVbBPyZ9ftI7A

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容

  • TF: transcription factor转录因子TFBS: transcription factor bi...
    Y大宽阅读 68,209评论 8 126
  • 微风拂面,冷空气刚过,气温不冷不热。。。。。 孩子们欢呼雀跃了,奔跑着。
    尹和军阅读 138评论 0 1
  • 当有目标,或者说当开始真正的活在未来的时候,就会减少很多不必要的事情,一些琐事也会看不见。换着花样去接近目标,不想...
    读书游轮阅读 161评论 0 1
  • 属性选择器 在CSS2中引入了一些属性选择器,而CSS3在CSS2的基础上对属性选择器进行了扩展,新增了三个属性选...
    夜之海澜阅读 728评论 0 0
  • 健身教练 健身教练,其最重要的职责就是帮助顾客获得健康,来健身的顾客需要的是科学的健身指导,并以此获得身体的健康。...
    火鸟健身阅读 67评论 0 0