最近有人问起单细胞测序分析的问题,我确实没有做过,就先来学习一下吧。
先在搜狗微信找到一些介绍引用一下:
单细胞测序有着漫长的过去,却只有短暂的历史—-谁说的!
说她漫长是因为到如今也有十几年的历史了(汤富酬老师2009年的文章使得单细胞测序成为现实,郭国骥老师2010年的文章揭示对500多细胞进行48个基因的单细胞RT-qPCR就可以进行细胞类型区分,使得单细胞测序方向转向大量细胞低深度测序),说她短暂是因为针对单细胞的分析工具越来越有意义开发周期却越来越短。一般生物信息流程主要由软件(安装与参数)、数据库(结构和生物学意义)和数据分析(统计学和编程)组成,目前单细胞分析用到的软件主要是FastQC、Cellranger和R包Seurat、monocle;数据库有相应物种的参考基因组、KEGG、GO;数据分析部分主要基于count矩阵和差异表达数据用R或者Python来做。
在GitHub搜索关键词single-cell-tutorial
一共有32条结果:
排在前面的都是基于python的。
那就先下载2个学习了。
今天先来学习克利夫兰诊所LRI定量健康科学部的一个实验室的教程,是今年1月份上传的,还是比较新的。
10x Genomics 单细胞测序分析 (Chromium)
参考学习资料:
本教程是一个介绍性的单细胞测序数据分析。将用公共数据集涵盖理论和实验。先决条件:笔记本电脑,没有任何其它要求。
https://github.com/hwanglab/singlecell_tutorial/blob/master/01_singlecell_intro/01_intro.html
原作者邮箱hongc2@ccf.org,单位:克利夫兰诊所LRI定量健康科学部
单细胞测序的好处
图1. 单细胞转录组(sc-RNA-seq)揭示了被常规转录组(bulk RNA-seq)方法掩盖的细胞异质性。
- 探索组织中存在哪些细胞类型
- 识别未知/罕见的细胞类型或状态
- 阐明分化过程中或跨时间或状态的基因表达变化
- 识别特定细胞类型在不同条件(例如,治疗或疾病)之间差异表达的基因
- 探索在结合空间、调节和/或蛋白质信息的同时,细胞类型之间表达的变化
- Ref1
- Ref2
scRNA-seq分析的挑战
尽管scRNA-seq能够捕获细胞水平的表达,但样品制备和文库制备的成本更高,分析也更复杂,更难解释。scRNA-seq数据分析的复杂性包括:
- 数据量大
- 每个细胞的测序深度低
- 细胞/样本间的技术可变性
- 细胞/样本间的生物可变性
跨细胞/样本的技术可变性
技术来源的变异可能会导致基于技术来源的细胞之间的基因表达更相似/不同,而不是基于生物细胞类型/状态,这可能会模糊细胞类型的身份。技术差异来源包括:
- 特定于细胞的捕获效率:不同的细胞捕获的转录本数量不同,导致测序深度不同(例如,转录组的10-50%)。
- 库质量:RNA降解、低活性/濒临死亡的细胞、大量自由漂浮的RNA、分离不良的细胞以及不准确的细胞定量可能会导致低质量指标。
- 扩增偏倚:在文库准备的扩增步骤中,并不是所有的转录本都被扩增到相同的水平。
- 批次效应:批次效应是scRNA-Seq分析的一个重要问题,因为您可以看到仅由于批次效应而导致的表达上的显著差异。
- 跨批次拆分不同样本组的重复样本。如果跨条件进行差异基因分析(DE)或在总体水平上得出结论,重复次数越多越好(绝对多于2次)。
图3. Suggested experiments from Hicks SC, et al., bioRxiv (2015)
一定要在您的实验元数据中包含批次信息。在分析过程中,我们可以将由于批次而引起的变化进行回归,这样,如果我们掌握了这些信息,就不会影响我们的结果。
10x Genomics’ scRNA-seq
Gel-in bead(凝胶珠)
图4. 10x Genomics single cell 3’ gel bead
- Poly(dT)-primer
- 用于识别细胞表面蛋白的特征条带编码(bardcoding)的两个额外引物
- cell barcode and UMI
GEMs油滴
图5. 10x Genomics Chromium Next GEM Chip G
一个油滴 (GEM)=一个单细胞+一个凝胶微珠=一个scRNA-Seq,可以说这就是10X的基本技术原理。
- 纳升规模的油滴(GEMS)
- 大多数(~90-99%)生成的GEMS不含细胞
- 1,000至10,000个单个细胞的可伸缩转录图谱
The number of cells to capture
图6. 10x Genomics Chromium Next GEM Chip G
- 每次运行多达80,000+个细胞
- 当8,000个细胞加载倍率为3.9%时,要恢复5,000个细胞
- 当12,800个细胞加载倍率为6.1%时,要恢复8,000个细胞
Sequencing
图7. 10x Genomics Chromium Single Cell 3’ Gene Expression Library
本文的3个知识点总结
- Why single-cell sequencing is useful?
- The number of cells in 3’ scRNA-seq
- What information is stored in R1 and R2, respectively?
更详细的背景介绍参考:单细胞测序(scRNA-seq)通关||数据处理必知必会
单细胞实战(五) 理解cellranger count的结果