Amezquita, Robert & Hicks, Stephanie. (2019). Orchestrating Single-Cell Analysis with Bioconductor. 10.1101/590562.
近年来,诸如单细胞RNA测序等实验技术的发展使得在单个细胞中对基因组范围内的特征进行高维分析成为可能,这激发了大规模数据生成项目的形成,这些项目量化了单细胞水平上前所未有的生物变异。这些项目产生的数据在特征数量和样本数量上都表现出独特的特征,包括稀疏性和规模的增加。
由于这些独特的特性,需要专门的统计方法和快速有效的软件实现,以便成功地获得生物学见解。Bioconductor是一个基于R编程语言的开源、开放开发的软件项目,它利用丰富的软件历史和方法开发经验,率先分析了这种高通量、高维的生物数据。
Bioconductor拥有最先进的计算方法、标准化的数据基础设施和交互式的数据可视化工具,这些工具都可以很容易地作为软件包访问,Bioconductor使不同的用户能够分析来自尖端单细胞检测的数据。在这里,我们为潜在的用户和贡献者提供了单细胞RNA测序分析的概述,并强调了Bioconductor在这方面的贡献。
在sc-Review:单细胞RNA-seq数据分析最佳实践中,我们讲述了单细胞数据分析各个步骤的关键点。单细胞数据分析有着先天的优势,大部分关于基因的分析方法以及统计算法都已经开源了,这也是这一块发展比较快的一个原因。Bioconductor就是生物信息发展的一个写照:开源、便捷、文档健全。2019年,Bioconductor关于单细胞数据的工具爆发式增长,也发展出了特定的数据存储格式:以类,对象,包的形式。
- Sample: a single biological unit that is assayed.
- Feature: a trait of a sample that is measured. Examples include mRNAs in RNA-seq experiments, genomic loci for ChIP-seq experiments, and cell markers in flow/CyTOF experiments.
- Experiment: a procedure where a set of features are measured for each sample; in this usage, typically involves multiple samples, possibly with varying conditions (e.g. treatments, time points).
- High-throughput assay: an assay that captures and measures features from many samples. Examples include flow cytometry, CyTOF, and certain scRNA-seq platforms, which can quantify tens or hundreds of thousands to millions of cells. For this reason, in our review, most bulk assays are not considered high-throughput as they profile a limited number of samples.
- High-dimensional assay: an assay that captures thousands or tens of thousands of features per single sample unit. In our review, high throughput assays such as flow cytometry are not considered high-dimensional as they profile a limited number of proteins. Bulk assay: an assay that measures pools of cells to produce a set of measured features as a single observation unit per pool.
- Single-cell assay: a technology where a single sample corresponds to a single cell; includes flow cytometry, CyTOF, and single-cell RNA-seq (scRNA-seq) across various platform technologies (plate-based, droplet, etc.).
数据结构:
A : 最小的sce对象是通过提供数据来构建的,比如每个细胞的计数矩阵(蓝色方框),由特征组成,比如基因(行)和细胞(列)。还可以提供描述单元格的元数据,其中单元格表示为行,单元格的已知特征为列(橙色框)。类似地,也可以添加描述特性的元数据(绿色框)。这些不同类型的数据都存储在sce对象的不同部分中,这些部分称为槽(slots)。每个槽中的数据可以通过以各自的槽(箭头)命名的访问器以编程方式访问,比如rowRanges指的是特征元数据,colData指的是样本元数据,assay指的是数据。
B : 使用sce (singlecellexper, sce)兼容的工作流进行分析,将数据附加到初始sce对象。例如,计算每个单元格的库规范化因子将创建一个新槽(粉色框)。这些可以用来推导一个归一化计数矩阵,它与初始计数数据(深蓝色方框)一起存储在同一个检测槽中。因此,分析槽能够存储任意数量的数据转换。单元质量度量(描述单元特征)被附加到样例元数据槽colData中。最后,以与分析槽类似的方式,可以存储任意数量的维数缩减的数据表示形式,驻留在它们自己的槽中,reducedDim。
C : sce对象在典型分析的整个过程中不断发展,存储来自初始数据的各种度量和表示。有关singlecellexper类的更多信息,请参见singlecellexper(https://bioconductor.org/packages/singlecellexper)。
Bioconductor 还有一大优势:可以以包的形式分发数据集,这样一来大量的数据就可以在R中直接访问了。
单细胞数据标准流程:
这些分析的结果存放在:
已有工具库: