One-sentence summary:利用scRNA-seq数据,构建基于生物知识的神经网络,以预测细胞状态,提高模型可解释性。
Motivation
虽然深度学习已经可以在预测复杂生物现象上取得高准确度,但它常受限于提供生物机制上的insight,即没有良好的可解释性。另外,现有的深度学习可解释性分析常是预测后分析,比如识别特定预测结果的输入。
基于上述困境,作者构建了生物网络的深度学习模型KPNNs,每个节点都表示一个分子对等物(蛋白质、基因等),每条边表示一个机制解释(信号通路上的调控相互作用),通过训练此神经网络,以边或节点的权重识别特定作用机制。
Method
如图1,第一行表示传统ANNs网络的预测过程,由于黑箱性质,它很难提供有效的生物学可解释性信息。第二行表示KPNNs的预测过程,它直接用神经网络结构模拟分子调控网络,反应细胞中典型的信息流,信号通过信号蛋白从受体转导到转录因子,进而诱导基因表达的变化。
KPNNs的输入就是被调控基因的表达量,信号蛋白和转录因子是隐藏层节点,受体(receptor)作为网络输出节点,描述细胞表型状态。
Case study
Measure cellular response to T cell receptor (TCR) stimulation 建模细胞对T细胞受体刺激的反应
如图2,在TCR KPNN中,单细胞基因表达数据作为输入,TCR是网络的单输出节点,来预测一个T细胞是否经历了TCR刺激。
这里使用和TCR KPNN有相同节点但不同层数的全连接网络,可以看到即使TCR KPNN边的个数明显更少,更为稀疏,它也能达到很好的预测精度。
KPNN网络结构的特点
- 稀疏的模块化结构
- 层间跳跃的连接方式
-
KPNN存在直接连接到输入层节点的捷径(shortcuts)
全连接的ANN中隐藏层节点个数一般是人为设置的统一值,且节点统一连接到它前一层和后一层的所有相邻节点,这样对每一个隐藏层来说,其中的节点到输入层的距离都是相同的。但是在KPNN中,由于存在直接连接到输入层的节点,隐藏层节点到输入层节点的距离变化差异较大。
-
KPNN节点度数分布符合生物网络连接模式
一个节点常和许多有低连接度的节点相连,对应生物网络中的“hub”,这也反应了KPNN高度模块化的特征(对边变化的高敏感度),如图5所示。
以上特征最终影响隐藏层节点对输入节点的可见性,不是通过任意一个隐藏层节点都可以到达所有输入层节点。KPNN希望通过在网络结构上模拟生物网络提高模型的可解释性。
KPNN的可解释性
如图7,红色代表有高权重的边,以识别对TCR信号有明显反应的调控因子。
这篇文章比较有趣的地方在于直接用生物网络的结构构建传统ANN,模拟调控通路,由网络结构提供生物学上的insight,而不是在训练后分析输入特征。