Nat Biotech | 多组织单细胞数据分析发现四种类型的细胞状态
原创 huacishu 图灵基因 2022-10-21 10:11 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=68.164
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者开发了MultiVelo,一种基因表达的微分方程模型,它扩展了RNA速率框架,以纳入表观基因组数据。MultiVelo使用概率潜在变量模型来估计染色质可及性和基因表达的切换时间和速率参数,提高了细胞命运预测的准确性;
2、作者将其应用于大脑、皮肤和血细胞的多组分单细胞数据集,可以发现两类不同的基因,其区别在于染色质在转录停止之前还是之后关闭。还发现了四种类型的细胞状态:表观基因组和转录组耦联的两种状态和两种不同的解耦联状态;
3、作者确定转录因子表达和结合位点可及性之间以及疾病相关SNP可及性和相关基因表达之间的时间滞后。
美国密西根大学Joshua D. Welch教授课题组在国际知名期刊Nat Biotechnol在线发表题为“Multi-omic single-cell velocity models epigenome–transcriptome interactions and improves cell fate prediction”的论文。多组分单细胞数据集中,同一细胞内有多种分子模式,有助于理解表观基因组和转录组之间的时间关系。
为了实现这一潜力,作者开发了MultiVelo,一种基因表达的微分方程模型,它扩展了RNA速率框架,以纳入表观基因组数据。MultiVelo使用概率潜在变量模型来估计染色质可及性和基因表达的切换时间和速率参数,并与仅从RNA进行的速度估计相比,提高了细胞命运预测的准确性。
应用于大脑、皮肤和血细胞的多组分单细胞数据集,可以发现两类不同的基因,其区别在于染色质在转录停止之前还是之后关闭。作者还发现了四种类型的细胞状态:表观基因组和转录组耦联的两种状态和两种不同的解耦联状态。最后,作者确定转录因子表达和结合位点可及性之间以及疾病相关SNP可及性和相关基因表达之间的时间滞后。
从DNA到RNA再到蛋白质的基因表达调控是控制细胞命运的关键过程。协调有序的基因表达变化是细胞特异性发育过程的基础。越来越多的高通量单细胞测序技术被应用于揭示这些序列基因表达的变化。然而,由于实验测量会破坏细胞,因此只能使用时间快照测量,并且不可能观察到同一个细胞随时间的变化。
计算方法可以使用单细胞快照推断发育过程中连续的基因表达变化。然而,基于相似性的轨迹推断无法预测细胞转变的方向或相对速率。推断RNA速度的方法通过拟合一个微分方程系统来解决这些限制,该系统使用拼接和非拼接转录计数来描述转录变化的方向和速率。单细胞表观基因组也被用于推断细胞分化的方向,但这些方法没有包含基因表达。
单细胞多组学测量提供了将表观基因组数据纳入转录机制模型的机会。表观基因组和转录组在细胞分化过程中都会发生变化,因此,单细胞多组分数据集中的时间快照可能会揭示这些分子层之间的相互作用。
现有的RNA速度模型假设基因的转录速率在基因表达的诱导阶段是一致的。然而,表观基因组的变化在调节基因表达方面起着关键作用,因此,一个更现实的模型将反映增强子和启动子染色质可及性对转录速率的影响。
作者提出了MultiVelo,一种从单细胞多组分数据集推断基因表达表观基因调控的计算方法。作者扩展了动态RNA速度模型,将多组分测量纳入其中,以便更准确地预测每个细胞的过去和未来状态,共同推断每个模式的瞬时诱导或抑制率,并确定模式之间的耦合程度或时间延迟。
MultiVelo:一个包含染色质可及性的基因表达微分方程模型
MultiVelo将基因表达过程描述为一个由三个常微分方程(ODE)组成的系统,其特征是一组切换时间和速率参数(图1a)。该模型代表了一种有意简化的基因表达观点,其中染色质修饰物和转录因子(TF)的复杂作用被抽象为速率常数。
从这些假设出发,给出了一个具有两个有趣的定性性质的数学模型。首先,染色质可及性和RNA转录状态有多种数学上可行的组合。也就是说,当转录被诱导或抑制时,染色质可以打开或关闭。这意味着事件可能有多种顺序:染色质关闭可能发生在转录抑制开始之前或之后(图1b)。作者将第一顺序(染色质关闭在转录抑制之前开始)称为模式1,第二顺序称为模式2。
在基因表达过程的开始,染色质在转录开始之前打开。这将创建一个时间间隔,在此期间染色质可及性c(t)为正,而未切割前mRNA u(t)和剪接成熟mRNA s(t)均为零(图1c)。这种现象称为启动。此外,在基因表达过程的末尾,染色质关闭和转录抑制可能在不同的时间发生。这创造了一个时间间隔,在这个时间间隔内,染色质可及性和基因表达朝相反的方向移动(图1d),称之为脱钩现象。
MultiVelo通过单细胞数据估计的常微分方程参数,推断并量化这些多阶和多类型不一致现象。首先,转换时间(tc、ti和tr)表明染色质关闭、转录诱导和转录抑制开始的时间。其次,MultiVelo拟合的参数可用于确定每个基因是否观察到模型1或模型2的值最适合(图1)。
MultiVelo区分了胚胎小鼠脑基因表达调控的两种模式
作者首先将MultiVelo应用于胚胎小鼠大脑胚胎第18天(E18)的10x Multiome数据。MultiVelo精确地拟合了观察到的整个脑细胞群体的染色质可及性、未切割前mRNA和剪接mRNA计数,确定了426个基因,其模式很可能符合模型。MultiVelo推断出的速度矢量和潜伏时间值准确地恢复了哺乳动物皮层发育的已知轨迹。
具体来说,脑室下区外的放射状胶质细胞(RG)产生神经元、星形胶质细胞和少突胶质细胞。在神经元迁移过程中,皮质层是由内向外形成的,新生细胞向上层移动,而较老的细胞停留在较深层。RG细胞可以分裂为中间祖细胞(IPC),作为神经干细胞,并进一步在不同层产生各种成熟的兴奋性神经元。
与仅RNA模型(如scVelo)相比,结合染色质可及性和基因表达可提高速度估计的准确性(图2a)。特别是,仅RNA模型预测上层神经元内的生物异常回流(图2b)。细胞周期评分表明,发育过程始于RG附近的循环种群(图2c),证实了MultiVelo推断的潜伏期。
作者预计,染色质可及性的增加将最有助于区分染色质重塑和基因表达不同步的细胞状态。两个明显的例子是Eomes和Tle4,它们是IPC和深层神经元的典型标记。这些基因的RNA转录物仅在一种或两种特定的细胞类型中高度表达,使得RNA速度方法很难区分它们的相对顺序(图2d)。换而言之,结合染色质可以让我们推断出3D速度矢量,指示每个细胞对每个基因的预测分化,比仅从RNA中提取二维相图更好地分辨细胞差异。
MultiVelo确定了该数据集中模型1或模型2最好描述的基因的清晰示例。比较模型1和模型2的基因相图,可以发现最大染色质可及性的时间存在明显差异,与模型预测一致(图2e)。模式1基因如Satb2在转录诱导阶段达到最大染色质可接近性,而模式2基因如Gria2在转录抑制阶段达到最大可接近性(图2f)。
进一步研究了模型1和模型2基因,以了解它们是否具有任何特性。基因本体分析表明,M2基因在与细胞周期相关的术语上显著富集。此外,模型2基因往往在潜伏期比模型1基因更早达到最高的剪接表达(图2g)。假设细胞可能使用模型2快速、短暂地激活不需要维持表达的基因,而模型1可能对需要稳定表达的基因有用。
接下来,作者研究了每种类型的基因表达动力学(仅诱导、仅抑制、模型1或模型2)发生的频率。大多数高度可变的基因都显示诱导和抑制阶段,对于只有部分轨迹的基因,仅诱导阶段的相图比仅抑制阶段更常见(图2h)。无论基因是完全动力学还是部分动力学,MultiVelo都符合描述染色质可及性和基因表达动力学三维轨迹的ODE参数(图2i)。
MultiVelo确定胚胎小鼠大脑中的表观基因启动和去耦联
MultiVelo确定了10x Multiome数据中四种状态的清晰示例(图3a)。例如,Grin2b是一个仅诱导的基因,因此仅预测该基因的诱导状态(启动和耦合)(图3a)。模型1基因Nfix的相图具有完整的轨迹形状,并标有所有四种状态(图3a)。相反,Epha5是一个模式2基因,在整个时间范围内,它的可接近性持续上升,没有观察到闭合阶段,因此它只占据耦合和解耦状态(图3a)。
Robo2 RNA表达和染色质可及性之间的最大差异出现在圆形区域,预计该区域处于去耦状态(图3b)。Robo2是模式1基因;染色质关闭开始后,表达水平保持在相对较高的水平。同样,Gria2的可及性与去耦状态下的RNA不同(图3b)。模式2基因Gria2的染色质可及性在转录诱导期之后继续增加。此外,基因Grin2b显示了染色质启动阶段染色质在RNA生成之前打开(图3b)。
沿着每个基因的推断时间t绘制c、u和s可以让我们详细检查状态转换(图3c)。首先,Robo2的u(t)和s(t)值显示了转录抑制阶段的两个拐点,对应于从耦合态到解耦态以及从解耦态到耦合态的转变(图3c)。这种模式表明,在u(t)和s(t)中可以看到染色质闭合和转录抑制的不同作用。
换句话说,MultiVelo预测,对于Robo2,染色质关闭会降低总转录速率,因为RNA水平在染色质切换后立即开始下降。随后转录速率从正转为零会引起第二个拐点,导致RNA表达更快速的下调。Gria2的c(t)、u(t)和s(t)曲线图显示了相反的趋势:即使在转换到转录抑制后,c仍继续上升,导致c和u在去耦状态下朝相反的方向移动(图3c)。在Grin2b的长启动阶段,c(t)开始上升,而u(t)和s(t)保持在零(图3c)。
因为MultiVelo适合每个基因的速率和切换时间参数,作者的分析提供了一个观察基因调节一般趋势的机会。首先,确实存在通过神经元簇的级联状态转换;每个细胞的多个基因通常同时处于启动或解耦状态(图3d)。其次,发现耦合的开和耦合的关闭状态在基因表达过程中所占的比例大于启动和解耦状态(图3e)。此外,还发现染色质通常以相似的速度打开和关闭;推断的染色质闭合率和染色质开放率之间的中位数比率几乎恰好为1(图3f)。
MultiVelo量化小鼠毛囊SHARE序列数据中的表观基因启动
最近的一项研究使用SHARE-seq来研究毛囊组织中运输扩增细胞(TAC)的快速增殖,这些细胞会产生一些成熟的效应细胞,包括内根鞘(IRS)和毛干层:角质层、皮质层和髓质。当应用于此数据集时,MultiVelo正确识别了从TAC到IRS和毛干细胞的分化方向(图4a),而仅使用RNA的速度分析无法捕捉到毛干分化方向(图4b)。与小鼠大脑相比,此数据集中仅诱导更多,模型2基因更少(图4c)。
事实上,UMAP图以可及性着色,未分割和剪接的mRNA表达在各模式中显示出明显的时间延迟(图4d)。接下来,作者检查了SHARE序列中确定的其他基因。拟合模型表明,MultiVelo捕捉了每个基因的动态,并提供了启动和去耦区域的清晰图示(图4e)。
Wnt3上的动态时间扭曲(DTW)结果表明,与基因表达之前的染色质可及性一致(图4f,顶部)。未拼接和拼接表达式显示了类似的模式,但具有较短的时间延迟(图4f)。由于DTW将早期曲线上的每个时间点映射到后期曲线上的一个时间点,因此可以通过减去匹配点的时间来计算每个时间点的时间滞后(图4f)。
MultiVelo揭示了人类HSPC的早期表观基因组和转录组变化
血细胞分化是一个很难用RNA速度建模的系统。然而,作者发现合并染色质信息可以提高造血数据集中预测细胞方向的局部一致性和生物学准确性(图5a)。与小鼠大脑一样,MultiVelo预测模型1在这个数据集中比模型2更常见;诱导是第二个最常见的基因类别(图5b)。观测到的素数间隔和解耦间隔的中值长度比耦合相位的中值长度短(图5c)。这些模式与在小鼠大脑数据集中观察到的一致,表明可能存在共同的潜在生物学机制。
与小鼠大脑数据集一样,HSPC数据集中的模型2基因显著丰富了与细胞周期相关的基因术语。研究髓系、红系和血小板系的分离轨迹,许多G2/M期标记基因显示出清晰的模型2模式,表达开始下降后染色质可及性最高(图5d)。MultiVelo拟合的基因模型揭示了许多启动的例子(图5e)。
绘图速度允许我们更详细地检查局部染色质和RNA趋势(图5f,g)。虽然染色质在这些基因开始时表现出最大潜力(最高速度),但对于RNA来说,干细胞群体如HSC、多能祖细胞、巨核细胞红细胞祖细胞和GMP在向一个谱系分化的过程中表现出更强的潜力。
MultiVelo与发育中人脑的TFs、多态位点和基因表达相关
将MultiVelo应用于最近发布的来自开发人类皮质的10x Multiome数据集。与胚胎小鼠大脑数据集一样,MultiVero推断出与已知脑细胞发育模式一致的速度矢量(图6a)。MultiVelo正确推断RG附近的循环细胞群是潜伏期最早的细胞类型。相反,在没有染色质信息的情况下推断出的速度矢量预测了IPC和上层兴奋性神经元的不一致回流(图6b)。与小鼠大脑数据集一样,确定了模型1和模型2基因的明确示例(图6c),尽管在人类数据集中预测遵循模型2的基因较少(图6d)。
MultiVelo的一个关键优点是它能够将细胞置于从染色质和表达数据推断出的潜伏时间尺度上。潜伏期可以识别基因座表达和可访问性之间的时间滞后,而不仅仅是基因附近的基因座。例如,潜伏期可用于计算TF表达与其结合位点可及性之间的时间长度(图6e-f)。
MultiVelo推断的潜伏期也有助于将疾病相关变异位点的染色质可及性与附近基因的表达联系起来。作者收集了6968个单核苷酸多态性(SNPs)及其相关基因的列表,这些基因与精神疾病的全基因组关联研究有关,包括双相情感障碍和精神分裂症。利用MultiVelo的潜伏期,我们确定了每个SNP的最大可达性时间以及SNP可达性与其连锁基因最大表达之间的时间差(图6g)。
讨论
总之,MultiVelo建模反映了时间染色质可及性和基因表达水平,并量化了染色质可获性和基因表现暂时不同步的启动和去耦间隔的长度。模型精确地拟合了胚胎小鼠大脑、小鼠背部皮肤、胎儿人脑和人类HSPC的单细胞多组分数据集。作者发现,合并染色质可及性数据可以提高速度估计的总体准确性,在经历快速表观基因组变化的早期干细胞中差异最大。
MultiVelo开创的最令人兴奋的新方向是将分化过程中的表观基因组和转录变化联系起来的能力。未来工作的一个有趣方向是将该方法扩展到包括基因表达过程的其他步骤。MultiVelo将在一系列生物环境中,包括正常细胞分化、重编程和疾病,对基因表达的表观基因调控提供见解。
教授介绍
Joshua D. Welch教授就职于美国密西根大学。他的研究旨在通过开发新的工具来解决生物医学研究和计算机科学中的基本问题,这些工具是为高通量测序技术量身定制的。从广义上讲,他试图了解哪些基因定义了健康组织中细胞类型和细胞状态的补充,细胞如何分化,以及特定细胞类型中基因的失调如何导致人类疾病。
作为计算方法的开发人员,Joshua D. Welch教授寻求使用和改进机器学习方法,特别是用于高维数据的无监督分析。最近,他专注于开发用于处理、分析和建模单细胞测序数据的开源软件。该领域的主要贡献包括SingleSplice,第一种用于单细胞剪接分析的计算方法;SLICER,一种推断发展轨迹的算法;和MATCHER,第一种整合单细胞转录组和表观基因组数据的方法。并且,应用这些方法研究干细胞分化、体细胞重编程和大脑。
参考文献
Li C, Virgilio MC, Collins KL, Welch JD. Multi-omic single-cell velocity models epigenome-transcriptome interactions and improves cell fate prediction. Nat Biotechnol. 2022;10.1038/s41587-022-01476-y. doi:10.1038/s41587-022-01476-y