调控基因组

cis-regulatory motifs

转录调控

img

Transcription start site (TSS)
Transcription factor binding sites (TFBS)
Cis-regulatory module (CRM) 有多个TF在一起
Proximal promoter and distal enhancer 近端的启动子远端的增强子

在人中，有300个TF结合在核心启动子区域；有1500个结合在基因其他区域，可以调节一系列基因

图示

img

其中的insulator可以阻隔enhancer起作用

全基因组研究调控原件的主要方法

img

ChIP-seq:

peak的高低体现了蛋白的富集程度
只能研究单一的蛋白，具有特异性
有时候不能找到合适的抗体

DNase-seq

img

DNase I超敏感位点（DHS）是对DNaseⅠ高度敏感的活性染色质区域，DNase测序（DNase-seq）是进行全基因组DHS分析的常用方法
DNase I是一种非特异性核酸内切酶，基于它们对切割的过敏性，长期以来就被用于对“开放”染色质位点的作图
chromatin open 的位置很容易有其他蛋白的结合
由于多种蛋白质可以与相同序列相结合，有必要整合DNase-seq测序数据和ChIP-seq测序数据来对引起特定DNase足迹的蛋白质进行定性鉴定
不依赖于抗体或表位标签，DNase-seq可以用来在一次实验中分析大量蛋白质的基因组分布
从大范围来看，结合的位置凸起。如果从小范围来看，空着的位置刚好是一个可能的motif

ATAC-seq (Assay for transposase- accessiblechromatin using sequencing)

通过Tn5转座酶，优先标记和测序核小体之间的DNA
ATAC-seq提供的信息与新DNase-seq法差不多，但步骤更为简单，需要的细胞也更少
在无法获得大量细胞的情况下，ATAC-seq更有帮助。

文章原图

img

A genomic locus analysed by complementary chromatinprofiling experiments reveals different aspects ofchromatin structure
ChIP–seq reveals binding sites of specifictranscription factors (TFs); DNase-seq, ATAC-seq andFAIRE–seq reveal regions of open chromatin; andMNase-seq identifies well-positioned nucleosomes.
In ChIP–seq, specific antibodies are used toextract DNA fragments that are bound to the targetprotein, either directly or through other proteins ina complex that contains the target factor.
In DNase-seq, chromatin is lightly digested by theDNase I endonuclease. Size selection is used toenrich for fragments that are produced in regions ofchromatin where the DNA is highly sensitive to DNaseI attack.
ATAC-seq is an alternative method to DNase-seq thatuses an engineered Tn5 transposase to cleave DNA andto integrate primer DNA sequences into the cleavedgenomic DNA (that is, tagmentation).
Micrococcal nuclease (MNase) is an endo–exonucleasethat processively digests DNA until an obstruction,such as a nucleosome, is reached.
In FAIRE–seq, formaldehyde is used to crosslink chromatin, and phenol–chloroform is used to isolate sheared DNA.

结合在哪里

Some TFs almost always bind in proximal promoter regions

Others bind to many regions

常用的表示方法

Position weight matrix (PWM)

img

把所有碱基出现的次数相加，高度表示可信度
这种方法过于简单，不能表示出碱基之间的关系。
假设各个碱基之间均为独立

How is specificity of binding achieved

motif 定义

img

有时并非直接和DNA结合

img

How to identify TF binding sites?

img

没有序列比对的时候

Given a collection of genes that are likely to be regulated by the same TFs (or orthologous genes across different species — methods based on phylogenetic footprinting principles), find the TF-binding motifs in common

但是问题是不知道motif是什么，找不到相关的基因，而且如何排除背景干扰

最原始的方法是多重序列比对MSA

比较保守的非编码区域可能有

PhyloCon — comparative genomic approach

结合序列比对和共表达基因
共表达基因很可能收到相同的motif调控
但并不是所有的elements都保守

Expectation-Maximization (EM) 目前最常用的方法（MEME）

Expectation-Maximization

In each iteration, it learns the PWM model and identifies examples of the matrix (sites in the input sequences) 在每一次迭代中，学习一个PWMmodel然后再通过输入的序列进行比对

MEME works by iteratively refining PWMs and identifying sites for each PWM(不同的迭代直到找到一个最合适的PWM)

The intuitive idea is as follows:

Estimate motif model (PWM)

Start with a k-mer seed (random or specified)通常是6个
Build a PWM by incorporating some of background frequencies 根据背景生成一个初始的PWM

Identify examples of the model

For every k-mer in the input sequences, identify its probability given the PWM model 计算k-mer在输入序列中给出PWM出现的概率

Re-estimate the motif model

Calculate a new PWM, based on the weighted frequencies of all k-mers in the input sequences
根据input序列中k-mer出现频率的权重更新PWM

Iteratively refine the PWMs and identify sites until convergence

例子1

img

1.1

img

1.2

img

1.3

img

在MEME中

过程

首先设置model, 然后经历Estep和Mstep,找到合适的PWM

然后将PWM进行极大似然转换并取log

img

然后看输入序列中出现该motif的概率

img

What does transcription factor binding mean in terms of regulating target genes?

人的大多数结合位点都是在内含子和基因间区

Stronger sites are not closer to differentially regulated genes (not necessarily more functional)

Majority of functional sites not conserved

目前很难预测靶基因

img

ChIP-seq call peak 的策略和思想

ChIP-seq技术

img

核心思想

img

macs原理

TF在基因组上的结合其实是一个随机过程，基因组的每个位置其实都有机会结合某个TF，只是概率不一样

peak出现的位置，是TF结合的热点，而peak-calling就是为了找到这些热点。

热点：位置多次被测得的read所覆盖（我们测的是一个细胞群体，read出现次数多，说明该位置被TF结合的几率大）。

read出现多少次算多：假设TF在基因组上的分布没有任何规律，测序得到的read在基因组上的分布也必然是随机的，某个碱基上覆盖的read的数目应该服从二项分布。

当n很大，p很小时，二项分布可以近似用泊松分布替代

img

$\lambda$ 是泊松分布唯一的参数，n是测序得到的read总数目，l是单个read的长度，s是基因组的大小。

我们可以算出在某个置信概率（如0.00001）下，随机情况下，某个碱基上可以覆盖的read的数目的最小值，当实际观察到的read数目超过这个值（单侧检验）时，我们认为该碱基是TF的一个结合热点。反过来，针对每一个read数目，我们也可以算出对应的置信概率P。

实际情况由于测序、mapping过程内在的偏好性，以及不同染色质间的差异性，相比全基因组，某些碱基可能内在地会被更多的read所覆盖，这种情况得到的很多peak可能都是假的。

MACS考虑到了这一点，当对某个碱基进行假设检验时，MACS只考虑该碱基附近的染色质区段（如10k），此时，上述公式中n表示附近10k区间内的read数目，s被置为10k。当有对照组实验（Control，相比实验组，没有用抗体捕获TF，或用了一个通用抗体）存在时，利用Control组的数据构建泊松分布，当没有Control时，利用实验组，稍大一点的局部区间（比如50k）的数据构建泊松分布。

read只是跟随着TF一起沉淀下来的DNA fragment的末端，read的位置并不是真实的TF结合的位置。

在peak-calling之前，延伸read是必须的。不同TF大小不一样，对read延伸的长度也理应不同。

我们知道测得的read最终其实会近似地平均分配到正负链上，这样对于一个TF结合热点而言，read在附近正负链上会近似地形成“双峰”。

MACS会以某个window size扫描基因组，统计每个window里面read的富集程度，然后抽取（比如1000个）合适的（read富集程度适中，过少，无法建立模型，过大，可能反映的只是某种偏好性）window作样本，建立“双峰模型”。

最后，两个峰之间的距离就被认为是TF的长度D，每个read将延伸D/2的长度

img

ChIP-seq后续分析

If we are given a set of ChIP-seq peaks, how to identify motif for the TF— use MEME

To find out what the sequence motif resembles — use TomTom

Use known motif to search peak regions — use FIMO

Study common biological pathways or functions of potential target genes of the TF — use GREAT

刘晓乐实验室ChIP-seq数据分析流程

基因调控网络

贝叶斯网络

定义：包括一个有向无环图（DAG）和一个条件概率表集合。DAG中每一个节点表示一个随机变量，可以是可直接观测变量或隐藏变量，而有向边表示随机变量间的条件依赖；条件概率表中的每一个元素对应DAG中唯一的节点，存储此节点对于其所有直接前驱节点的联合条件概率

性质：每一个节点在其直接前驱节点的值制定后，这个节点条件独立于其所有非直接前驱前辈节点

类似Markov过程，贝叶斯网络可以看做是Markov链的非线性扩展。这条特性的重要意义在于明确了贝叶斯网络可以方便计算联合概率分布。

通过基因表达来推测网络

img

model图形说明

img

DAG：有向无环图
Conditional probabilitydistribution (CPD) 条件概率分布
多变量非独立联合条件概率分布 P(G1，G2，G3，G4，G5)求取公式

模型选择

img

训练参数

img

CPD for discrete expression level

img

实际含义

img

module network 模块网络

每个节点不是一个基因合适若干基因

经典文章

img

主要过程

img

具有隐藏变量
首先将基因进行cluster
然后M步学习，E步调整

无方向图

分析过程要给已经构建的相关性矩阵取逆

当样本很小时无法进行转换要使用lasso算法

img

关键在于如何确定公式中的lamada

img

这样不需要所有节点之间都有边

加入靠谱熊基地，和大家一起交流

最后编辑于：2018.07.08 21:38:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,378评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,356评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,702评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,259评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,263评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,036评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,349评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,979评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,469评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,938评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,059评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,703评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,257评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,262评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,485评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,501评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,792评论 2赞 345

调控基因组

调控基因组

cis-regulatory motifs

转录调控

全基因组研究调控原件的主要方法

结合在哪里

常用的表示方法

How is specificity of binding achieved

motif 定义

有时并非直接和DNA结合

How to identify TF binding sites?

没有序列比对的时候

最原始的方法是多重序列比对MSA

PhyloCon — comparative genomic approach

Expectation-Maximization (EM) 目前最常用的方法（MEME）

在MEME中

相关文献

过程

What does transcription factor binding mean in terms of regulating target genes?

ChIP-seq call peak 的策略和思想

ChIP-seq技术

macs原理

ChIP-seq后续分析

基因调控网络

贝叶斯网络

model图形说明

模型选择

训练参数

CPD for discrete expression level

实际含义

module network 模块网络

无方向图

推荐阅读更多精彩内容