原文:Modeling gene regulation from paired expression and chromatin accessibility data
引言
基因表达,染色质状态和转录因子(TF)结合位置上全基因组数据集的迅速增加提供了令人兴奋的机会来解释基因组和表观基因组中编码的信息。这项任务可能具有挑战性,因为它需要联合建模上下文相关的顺式调控元件(RE)的激活及其对相关调控因子转录的影响。为了迎接这一挑战,我们提出了一种基于跨不同细胞环境的配对表达和染色质可及性(PECA)数据的统计方法。在我们的方法中,我们建立模型(i)基于染色质调节剂(CR)与序列特异性TF的相互作用,将其定位于RE,(ii)由于CR定位于它们而激活RE,以及(iii) )与活化RE结合的TF对靶基因(TG)转录的影响。 PECA推断的转录调控网络提供了有关转录和顺式调控元件如何协同作用以特定于背景的方式影响基因表达的详细视图。我们通过分析小鼠DNA元素百科全书(ENCODE)的成对表达和可访问性数据来说明这种方法的可行性,并探讨所得模型的各种应用。
关键词
基因调节、转录因子、调节元件、染色质调节、染色体活性
自从高通量基因表达实验(1)出现以来,计算机生物学家就对来自与不同细胞类型和实验条件相对应的不同细胞环境中的基因表达数据推断基因调控关系产生了兴趣(图1,红色框)。但是,由于基因表达测量几乎不能提供有关潜在调控机制(如转录因子结合和染色质修饰)的信息,因此进展受到了阻碍。为了填补这一空白,已经开发了基于染色质免疫沉淀的方法(2、3),用于转录调节剂结合位置的全基因组定位以及特定染色质状态特征的表观遗传标记的检测。例如,通过执行成千上万的ChIP-seq实验,DNA元素百科全书(ENCODE)联合会在少数细胞系上生成了许多染色质标记和转录调节因子的数据(图1,绿色框) )。但是,由于必须一对一地分析大量的转录调节因子和染色质标记,因此不太可能将此类综合数据用于许多其他细胞系。对于大多数细胞环境,在可预见的将来,所需的数据将仍然缺失(图1,灰色框)。
另一方面,众所周知,许多对基因调控重要的蛋白质与DNA相互作用发生在调控元件(RE)中,例如增强子和绝缘子,它们仅占基因组中非编码序列的一小部分。 。在给定的细胞状态下,在基因调控中具有活性的REs倾向于具有开放的染色质结构,因此它们需要与相关的转录调节因子结合。这表明可以通过分析可访问的RE来揭示许多相关的监管关系。幸运的是,现在可以通过DNase-seq(4)或ATAC-seq(5)等最新方法对染色质可及性进行全基因组范围的测量。与基因表达数据相似,可访问性数据可用于多种细胞环境(图1,蓝色框)。实际上,我们希望在不久的将来,匹配的表达式和可访问性数据(即以同一样本衡量)的数量将迅速增加。
我们以相关作品的评论结束本导论。最近提出了几种通过“足迹”检测转录因子(TF)结合位点的方法,其中结合的TF的存在通过结合位点周围的DNase-seq(或ATAC-seq)图谱的形状反映出来。 (6-8)。这些工作集中于TF结合对位点附近切割频率的影响,而没有尝试建立基因调控关系的模型。 Blatti(9)整合基序,DNA可及性和基因表达数据以建立果蝇的调控图谱。他们使用来自伯克利果蝇基因组计划的RNA原位图像来定义“表达域”(概念上类似于我们的“细胞环境”),并使用来自四个发育阶段的DNase-seq可及性来滤除基序位点。它们的表达和可访问性数据没有像我们的方法那样成对。此外,它们的模型参数是特定领域的。相反,我们模型中的参数不是特定于上下文的,这允许使用模型来预测训练数据中未表示的上下文中的调节关系。尽管有这些重要的差异,布拉蒂(9)应被视为本工作的先驱。