ChIP-seq之模体分析

我们都知道ChIP-seq生物信息分析流程主要涉及:数据过滤、序列比对、检峰、模体(motif)分析。

其核心的问题是寻找可靠的motif,也即转录因子结合位点结合的序列特征。


何谓模体

 motif:再现的模式,如序列模体,结构基序或网络基。

这些基序通常是一些具有序列特异性的蛋白的结合位点(转录因子等)或涉及到重要的生物过程。

模体源起

早在1975年,Pribnow就发现了启动子区域的“TATAAT”盒,也成为pribnow框,它与上游的“TTGACA”基序是RNA聚合酶结合位点的特异性序列,在原核生物中这种特点尤其明显。

但是,并不是所有的结合位点都一定完美地与基序匹配。此外,结合位点与基序的匹配程度往往也与蛋白质、DNA的结合强弱程度有关。

发现模体

最初都是从生化试验开始的,诸如DNA酶足迹(DNase footprinting)、报告载体试验(reporter construct assays)等。后来,衍生出了许多基于试验-测序-计算的方法(ChIP-seq等)。

越来越多的基序被鉴定和验证,完善的基序数据库JASPAR(http://jaspar.genereg.net/)、TRANSFAC(http://gene-regulation.com/pub/databases.html)等也被建立起来。使得研究者们更加方便的去研究基序的功能。

这里主要介绍基于二代测序数据进行基序的检出和鉴定。

用于从头检测基序homermemedreme,glam2;

对检出基序注释tomtom(与meme、dreme同属于MEME suite)

多个基序聚类:MCAST

寻找基序在序列中的位点:FIMO、MAST、glam2scan

基序功能注释:GOMO、CentriMo、AME、SpaMo

展示形式

文章中大部分的展示形式是以序列一致性的logo进行展示。

Sequence Logo

The height of symbols within the stack indicates the relative frequency (relative proportion and conserved property) of each amino or nucleic acid at that position.

一个序列logo图是代表着多个序列比对后包含颜色标记的碱基字母垛叠在一起的图形展示。logo的总高度依赖于序列的保守程度,碱基/氨基酸保守程度越高,字母的高度越高。每个位置(垛)中的字母从最高频率到最低频率进行排序,多以可以从各个位置的顶端读取一致性序列。

数据格式

那么上述序列logo图的背后是以什么数据格式来呈现呢?

(1)Consensus Sequence(一致性序列)

这里首先引入碱基编码规则,由于基序中相同的位置可能出现的碱基不尽相同,这种情况下对其进行新的字母编码,以区分多种可能的碱基。

IUPAC codes

实测示例:G/A =R

基序序列

(2)矩阵打分

基于矩阵(Matrix)将各个一致性位置的碱基的都表示出来。

具体分为3种方法:1)Count-matrix, 即对各个位置碱基进行计数; 2)位置频率矩阵(position frequency matrix, PFM),即计算各个位置碱基的百分比和位置权重打分(position weight scoring, PWM),即频率取对数。

PFM又称:位置特异的概率矩阵(position-specific probability matrix,PSPM),位置特异的频率矩阵(position-specific frequency matrix,PSFM)

PFM示例

PWM又称:位置特异的打分矩阵(position-specific scoring matrix,PSSM)和位置特异的权重矩阵(position-specific weight matrix,PSWM)

PWM示例

参考资料

1. https://www.nature.com/articles/nbt0406-423

2. http://meme-suite.org/

3. Sequence logos: a new way to display consensus sequences. Nucleic Acids Res. 1990 Oct 25;18(20):6097-100.

4. https://prosite.expasy.org/sequence_logo.html

5. http://www.bioinformatics.org/sms2/iupac.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容