桑基图在单细胞数据探索中的应用
热图在单细胞数据分析中的应用
定量免疫浸润在单细胞研究中的应用
Network在单细胞转录组数据分析中的应用
你到底想要什么样的umap/tsne图?
空间分析目前已成为生命科学中发展最为迅速的领域之一,高通量测序的空间技术更是如火如荼,究其原因主要有三点:
- 生命科学家越来越认识到空间结构在基础医学以及临床应用中的重要性
- 我们所能测到的图谱(atlas/landscape/scenery)愈发多样,需要对其空间异质性进行评价。
- 大量空间分析技术和软件的出现使得空间分析成为可能。
然而,当拿到空间数据(如10 X Visium)的时候,没有受到空间数据分析训练生物学家,往往不能很好地利用空间信息。最近的空间转录组的文章,大部分空间信息只是作为X-Y的画板——在上面画基因表达量或者分组信息。空间信息的地位简化到可视化工具TSNE和UMAP之列,这不免令人惋惜。
本文的目的就是力求解决目前生物学研究对空间分析的需求与许多生物学家不能正确进行空间分析之间的矛盾。
首先,我们需要明确的一个概念是“空间(Spatial)”,这里讨论的主要是一张二维(x-y)的图象(image)。空间技术离不开成像(imaging)技术,但是空间含义区别于另外两种用到成像的技术:原位(situ) 和影像(Radiography)。更一般地,我们讨论的空间是一种坐标系(coordinate),二维上即由X轴和Y轴构成的平面。
进一步缩小讨论的范围,这里讨论的空间,是生物体内组织细胞所处的位置(site/spot)。这虽然很像在生物体内的地理学,但是到目前为止,这个地理学还没有一个坐标系,如经纬度。但是,获得细胞的位置这一事实,对生物信息的丰富至少提供了以下可能:
- 可以在传统的细胞分析中明确地纳入空间信息。如聚类可以对应到空间聚类(spatial clustering)
- 空间相对位置可以作为一个控制条件,来设计实验。如研究不同暴露部位的差异
- 空间信息可以直接地包括在对其他特征的分析过程中。如基因表达
- 探索、描述和量化空间格局,以便通过生物学数据的空间信号对生物学过程有更为深入的理解
- 在同一个空间中的多模态数据间建立联系
那么空间信息意味着什么呢? 先看地理学家是如何看待空间信息的:
- 地理学第一定律(Tobler's First Law): Everything is related to everything else, but near things are more related to each other. [1] (任何事物都是与其他事物相关的,只不过相近的事物关联更紧密)
- 地理学第二定律: 空间异质性定律(Law of Spatial Heterogeneity), 即空间的隔离造成了地物之间的差异,即异质性,可分为空间局域异质性和空间分层异质性
- 地理第三定律: 两个点(区域)的地理 配置 (环境) 越相似,目标变量在这两个点(区域)的值(过程)越相似
这三条地理学定理对任何一张切片上的cell/spot位置是适用的吗?是适用的,这一点我们认为是没有疑义的。那么,基于此我们单细胞数据科学家可以有什么新的启发呢?
先让这个叫人心潮澎湃的问题冷却一会吧。其实单细胞数据科学一直没有离开空间(space),甚至可以说有不少模型是在空间中进行的。如特征选择的PCA空间,我们需要思考纳入几个维度;可视化的时候我们会用TSNE/UMAP二维空间;在分细胞亚群的时候用到的聚类(clustering)是在降维空间内计算细胞间的距离(distance);在做不同模态数据整合的时候可以用WNN(weighted-nearest neighbor),一看也是在某空间内算对象的距离;在做逆时序分析时用到的最小生成树(Minimum Spanning Tree,MST ),也可以对应到空间中对象之间的连接。就拿可视化降维来说吧,虽然不是真实的空间,但是基因的表达模式还是有人总结出:salt-and-pepper expression pattern [2] 反思之,在这个意义上,之前单细胞所有可以画到UMAP上的信息,都可以画到真实空间中。
如果纳入了真实的空间信息,接受了地理学三大定律,就可以用地理学的一整套词汇来描述基因在空间中的表达模式了。如果还没有接受地理学三大定律,做知识储备或心理建设先。
现在 ,我们追问基于此我们单细胞数据科学家可以有什么新的启发呢?
回答是:之前的降维聚类以及各种推断将会被重估。
我们知道降维聚类都是基于表达量来计算细胞之间的距离,而现在我们有了真实的空间。根据地理学第一定律,cell/spot是有空间自相关的(spatial autocorrelation),离的近的对象相似性更高。那么,我们可以问:
- 如何量化空间自相关,描述空间依赖
- 如何划分区域并识别潜在的边界(这回癌旁癌组织不就分开了吗)
- 更关键的是,由于空间自相关的存在,传统统计学的基本假设(正态性,独立性,等方差性)均受到挑战。好在地理学家们为我们准备了空间统计学,等着我们去学习。
地理学第二定律(空间异质性定律)简直就是空间转录组的活的灵魂,我们为什么要做空间转录组啊,谁还不是为了获得细胞、基因表达的空间异质性?如
- 两个基因在空间不同位置(邻近,重叠,分离)表达意味着什么
- 一个基因集(通常意味着某个pathway或调控关系)在空间的表达模式与表型的相应
- A区域与B区域的差别与连通对应基因表达模式
- 空间中基因表达模式的格局与过程分析
地理第三定律大意是一个细胞的(状态)受其邻居影响。肿瘤细胞与免疫细胞的相互作用往往受其位置关系调节,很多治疗措施也是干预到细胞的,这个意义上,空间信息的加入肯定会进一步深化我们对肿瘤微环境中细胞行为的理解。坦率地说,有了空间信息的肿瘤微环境才是正宗的肿瘤微环境。如细胞间通信这种带有明显空间特征的生物信息,肯定需要新的算法来重新评估。
以上我们简要幻想了地理学概念在空间转录组的应用,或者说我们沐浴了一番地理学的阳光,到大草原走一波,放飞了一波思想。现在我们回来吧,看看spatial-based RNA 分析方法。
- spatial co-expression Network
在看空间分析中的叠加统计的时候,就想到如果不同区域内有共有基因的表达,我们知道有不同的划分方式,而基因又有很多。当时就在书的空白处写下了 【空间共表达网络 】,可惜 这里 空白 的地方太小 ,更多想法写不下,只是在后面写下一个问号。然后一Google还真能查到不少优秀的大脑在构建这个模型了,当然也可以从里面看到地理学的影子。
- spatial cell-cell interactions
在做scRNA的CCI的时候,我们都想知道细胞在空间中的交流是怎样的,而不是仅仅依赖配受体的表达量。那么,现在是时候了。最简单是按照细胞之间距离在传统的模型中加入一个距离权重,把空间信息加入到推断的过程中。
- spatial variable gene
既然空间信息那么重要,不同区域的变异(差异的)基因也值得关注,特别是我们需要圈出特定的区域时,或者已经标记出特定区域时。
- spatial variance component analysis
一个基因有空间异质性(或特异性),那么一个基因集呢?我们知道基因集言下之意对应着一个pathway或者一个调控关系啊。单变量扩展到多变量上面也就从基因走到了pathway和调控层面。那么现有的基因富集方法,如何扩展到空间转录中呢?所谓的富集其实就是打分嘛,如何制定打分体系。
- Pseudotimespace analysis
我们知道拟时序分析其实就是一种排序分析,只是传统的拟时序是在降维后的空间中进行的细胞排序(这种顺序最后表现为拟时序)。在排序的过程中加入空间信息,重新估算的拟时序,即可得到新的拟时空间上的次序(Pseudotimespace )。
- Spatial multimode integration
随着空间技术的发展,同一个空间之内不仅可以测表达量还有染色质可及性等,如何在一个空间内描述多模态数据?或者在多个空间内刻画图谱?
这些都是比较有意思问题,感兴趣可以把这些英语关键字放到浏览器里面,其实已经有大牛在尝试着解决他们了。随着思考的深入愈发感觉需要数学(模型)知识才能驾驭得了这万水千山。所谓:由山以上五六里,有穴窈然,入之甚寒,问其深,则其好游者不能穷也,谓之后洞。余与四人拥火以入,入之愈深,其进愈难,而其见愈奇。景观自然是十分诱人的,但是,又来一个所谓:古人之观于天地、山川、草木、虫鱼、鸟兽,往往有得,以其求思之深而无不在也。夫夷以近,则游者众;险以远,则至者少。而世之奇伟、瑰怪,非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也。
其实写着写着,空间上面可以承载的生物学问题果然很多啊,要不要开始生理生态学。
https://asdar-book.org/
https://www.rspatial.org/raster/analysis/index.html
https://www.taylorfrancis.com/books/9781003021643
https://www.jeffdoser.com/files/for875/_book/sp.html
https://cran.r-project.org/web/views/Spatial.html
https://mgimond.github.io/Spatial/coordinate-systems-in-r.html
https://oscarperpinan.github.io/rastervis/
https://books.google.com/books/about/Quantative_Morphology.html?id=Aq78xAEACAAJ
https://stackoverflow.com/questions/61661388/converting-a-png-file-to-a-window-owin-file-in-spatstat
http://spatialgiotto.rc.fas.harvard.edu/documentation2.html
https://blog.csdn.net/Hui_R_Q_XIONGDA/article/details/104395989
https://rubd.github.io/Giotto_site/
https://zhuanlan.zhihu.com/p/283199848
https://andrewmaclachlan.github.io/CASA0005repo/index.html
https://www.jianshu.com/p/18b8db1d2f64
https://stlearn.readthedocs.io/en/latest/index.html
Methods of counting discrete tissue components in microscopical sections
Identification of spatial expression trends in single-cell gene expression data
SpatialCPie: an R/Bioconductor package for spatial transcriptomics cluster evaluation
SpaGE: Spatial Gene Enhancement using scRNA-seq
SpatialDE: identification of spatially variable genes
[1] Wortley, R., and M. Townsley, eds… 2016. Environmental Criminology and Crime Analysis. Vol. 18. London: Taylor & Francis.
[2] Spatially and functionally distinct subclasses of breast cancer-associated fibroblasts revealed by single cell RNA sequencing
Dokuchaev, V. V. 1883/1948/1967. “Russian Chernozem.” In Selected Works of V. V. Dokuchaev, Moscow, 1948, 1, 14–419, (for USDA-NSF), Publ. by S. Monson, 1967. (Transl. into English by N. Kaner). Jerusalem: Israel Program for Scientific Translations.
Network Visualization and Analysis of Spatially Aware Gene Expression Data with InsituNet
Inferring the spatial code of cell-cell interactions and communication across a whole animal body
Modelling cell cell interactions from spatial molecular data with spatial varian cecomponent analysis
Multimodal Analysis of Composition and Spatial Architecture in Human Squamous Cell Carcinoma
Inferring spatial and signaling relationships between cells from single cell transcriptomic data
Spatially Resolved Transcriptomes—Next Generation Tools for Tissue Exploration
Statistical Analysis of Spatial Expression Pattern for Spatially Resolved Transcriptomic Studies
空间分析——生态学家指南,Mark Dale 等著,杨晓辉等译
空间数据分析,苏世亮等编著
空统计学,J·Diggle 著,吴良译
R语言空间数据处理与分析实践教程,卢宾宾编著
王安石||游褒禅山记