最近准备把单细胞RNA-seq生信分析的全部流程都完整详细的介绍一边,会很基础全面,所以内容很多,会拆分成很多期,目标是让不同学科背景的同学,看这一份宝典,就能真的完全学会单细胞组学分析。
1. Single-cell RNA sequencing
首先简要介绍一下单细胞核糖核酸 (RNA) 测序分析和相关的基本分子生物学概念。所有测序分析都具有各自的优点和局限性,必须通过数据分析了解这些优点和局限性,以了解数据中可能存在的偏差。
1.1 生命的基本组成单元
生命是区分生物与死亡或无生命实体的特征。生命一词的大多数定义都有一个共同的实体——细胞。 细胞形成开放系统,维持体内平衡、新陈代谢、生长、适应环境、繁殖、对刺激做出反应。因此,细胞是生命的基本组成部分,由英国科学家罗伯特·胡克于1665 年首次发现。胡克用非常简陋的显微镜研究了一小片软木塞,令他惊讶的是,这片软木片看起来像蜂窝。他将这些微小的单位命名为“细胞”。
1839 年,Matthias Jakob Schleiden 和 Theodor Schwann 首次描述了细胞理论。它描述了所有生物体都是由细胞组成的。细胞作为功能单位,本身起源于其他细胞,使它们成为繁殖的基本单位。
自从细胞理论的早期定义以来,研究人员发现细胞内存在能量流,遗传信息以DNA的形式从一个细胞传递到另一个细胞,并且所有细胞都具有几乎相同的化学成分。存在两种一般类型的细胞:真核生物和原核生物。真核细胞含有细胞核,核膜包裹着染色体;而原核细胞只有一个类核区,没有细胞核。细胞核承载着细胞的基因组脱氧核糖核酸 DNA,这也是真核生物名称的由来:Nucleus 在拉丁语中是内核或种子的意思。真核生物是由单个细胞(单细胞)或多个细胞(多细胞)组成的生物体,而原核生物是单细胞生物体。真核细胞与原核细胞的进一步区别在于其高度的区室化,即膜结合的细胞器执行高度专业化的功能并为细胞提供重要的支持。
与原核细胞相比,真核细胞的细胞器丰富,细胞骨架由微管、微丝和中间丝构成。DNA复制机制读取细胞核中DNA中存储的遗传信息,以进行自我复制并保持生命周期的持续。真核DNA被分成几个称为染色体的线性束,它们在核分裂过程中被微管纺锤体分开。了解隐藏在 DNA 中的遗传信息是了解许多进化和疾病相关过程的关键。测序是破译 DNA 核苷酸顺序的过程,主要用于揭示特定 DNA 片段、完整基因组甚至复杂微生物组所携带的遗传信息。DNA 测序使研究人员能够识别 DNA 分子和基因组中基因和调控元件的位置和功能,并揭示开放阅读框 (ORF) 或指示启动子区域的 CpG 岛等遗传特征。另一个非常常见的应用领域是进化分析,其中比较来自不同生物体的同源 DNA 序列。 DNA 测序还可以应用于突变与疾病之间的关联,有时甚至可以应用于抗病性,这被认为是最有用的应用之一。
一个非常流行的例子是镰状细胞病,这是一组血液疾病,由红细胞中血红蛋白异常引起。这会导致严重的健康问题,包括疼痛、贫血、手脚肿胀、细菌感染和中风。镰状细胞病的病因是遗传了制造血红蛋白的 β-珠蛋白基因 (HBB) 的两个异常拷贝,父母各有一个。该基因缺陷是由单核苷酸突变引起的,其中 GAG 密码子变为 β-珠蛋白基因的 GTG 密码子。这导致氨基酸谷氨酸在6位被缬氨酸取代(E6V取代),从而导致上述疾病。不幸的是,由于大多数疾病是由复杂的调控过程等引起的,因此并不总是能够找到单核苷酸突变与疾病之间的这种“简单”关联。
1.2 基因测序简史
1.2.1 第一代测序
尽管 Friedrich Mietscher 于 1869 年首次分离出 DNA,但科学界花了 100 多年的时间才开发出高通量测序技术。1953年,沃森、克里克和富兰克林发现了DNA的结构;1965 年,罗伯特·霍利 (Robert Holley) 对第一个 tRNA 进行了测序。七年后,即 1972 年,Walter Fiers 首次对完整基因(噬菌体 MS2 的外壳蛋白)进行了测序,使用 RNAses 消化病毒 RNA,分离寡核苷酸,最后通过电泳和层析将其分离。与此同时,弗里德里希·桑格 (Friedrich Sanger) 开发了一种使用放射性标记、部分消化的片段的 DNA 测序方法,称为“链终止法”,通常称为“桑格测序”。尽管桑格测序至今仍在使用,但它存在一些缺点,包括缺乏自动化和耗时。1987 年,Leroy Hood 和 Michael Hunkapiller 开发了 ABI 370,这是一种自动化桑格测序过程的仪器。其最重要的创新成就是用荧光染料而不是放射性分子自动标记 DNA 片段。这一变化不仅使该方法执行起来更安全,而且允许计算机分析获取的数据。
优势:
--Sanger测序简单且经济实惠。
--如果操作正确,错误率非常低 (<0.001%)。
劣势:
--Sanger方法只能对约 300 至 1000 个碱基对 (bp) 的短 DNA 片段进行测序。
--Sanger序列的前 15 到 40 个碱基的质量通常不是很好,因为这是引物结合的地方。
--测序在 700 至 900 个碱基后会降低。
--如果测序的 DNA 片段已被克隆,一些克隆载体序列可能会进入最终序列。
--每个测序碱基的Sanger测序比第二代或第三代测序更昂贵。
1.2.2 二代测序
九年后,即1996年,Mostafa Ronaghi、Mathias Uhlen 和 Pal Nyŕen 推出了一种称为焦磷酸测序的新 DNA 测序技术,引入了第二代测序的时代。第二代测序,也称为下一代测序 (NGS),主要是通过实验室的进一步自动化、计算机的使用和反应的小型化而实现的。焦磷酸测序测量测序过程中焦磷酸合成产生的发光。该过程通常也称为“合成测序”。两年后,Shankar Balasubramanian 和 David Klenerman 在 Solexa 公司开发并改造了合成测序流程,以实现一种利用荧光染料的新方法。Solexa 的技术也构成了 Illumina 测序仪的基础,该测序仪在当今市场上占据主导地位。Roche 454 测序仪于 2005 年开发,是第一台在单一自动化机器中完全自动化焦磷酸测序过程的测序仪。许多其他平台也被引入,例如 SOLiD 系统的“连接测序”(2007年)和 Life Technologies 的 Ion Torrent(2011 年),后者在合成新 DNA 时使用“合成测序”来检测氢离子。
优势:
--就所需试剂而言,第二代测序通常是最便宜的选择。
--微量的样本仍然可以检测。
--高灵敏度检测低频变异和全面的基因组覆盖。
--高容量,具有样品混合检测功能。
--能够同时对数千个基因进行测序,
劣势:
--测序仪价格昂贵,并且经常需要作为平台共享。
--第二代测序仪是大型固定机器,不适合现场工作。
--一般来说,第二代测序会产生许多短测序片段(reads),这些片段很难用于未知的基因组。
--测序结果的质量取决于参考基因组
1.2.3 第三代测序
第三代测序(现在也称为下一代测序)为市场带来了两项创新。首先,长读长测序,它可以获得比通常的 Illumina 短读长测序仪生成的长度更长的核苷酸片段的能力(75 至 300 个碱基对的顺序取决于测序仪)。这对于在没有可用参考基因组的情况下组装新基因组尤其重要。其次,实时测序能力是三代测序的另一重大进步。与体积小且不需要更复杂的化学机器的便携式测序仪相结合,测序现在可以“现场准备”,甚至可以在远离实验室设施的地方用于收集样本。
Pacific Biosciences (PacBio) 于 2010 年推出了零模式波导 (ZMW) 测序,该测序使用被纳米孔,包含单一 DNA 聚合酶。这使得任何单个核苷酸的掺入都可以通过安装在纳米孔下方的检测器直接观察到。每种类型的核苷酸都用特定的荧光染料标记,该染料在掺入过程中发出荧光信号,随后将其作为序列读数进行测量。从 PacBio 测序仪获得的读数通常为 8 至 15 kb,最高可达 70kb。
Oxford Nanopore Technologies 于 2012 年推出了 GridION。GridION 及其后继产品 MinION 和 Flongle 是用于 DNA 和 RNA 测序的便携式测序仪,可产生超过 2 Mb 的读数。值得注意的是,这样的测序设备甚至和人的手掌大小相当。牛津纳米孔测序仪观察核酸通过蛋白质纳米孔时发生的电流变化,以识别核苷酸序列。
优势:
--长读取将允许组装大型新型基因组。
--测序仪是便携式的,可以进行现场工作。
--可以直接检测 DNA 和 RNA 序列的表观遗传修饰。
--速度。 第三代测序仪速度很快。
劣势:
--一些第三代测序仪表现出比第二代测序仪更高的错误率。
--试剂一般比二代测序贵。
1.3 NGS 流程概述
尽管存在多种 NGS 技术,但 DNA(以及逆转录 RNA)测序的一般步骤基本相同。差异主要在于各自测序技术的化学原理。
1.样品和文库制备:第一步,通过将 DNA 样品片段化并将其与接头分子连接来制备文库。它们在文库片段与基质的杂交中起作用并提供引发位点。
2.扩增和测序:在第二步中,文库被转化为单链分子。在扩增步骤(例如聚合酶链式反应)中,会产生 DNA 分子簇。所有簇在单次测序运行期间发生各自的反应。
3.数据输出和分析:测序实验的输出取决于测序技术和化学反应。一些测序仪生成存储在特定输出文件中的荧光信号,而其他测序仪可能生成存储在相应文件格式中的电信号。一般来说,生成的数据量(原始数据)非常大。此类数据需要复杂且计算量大的处理。这将在原始数据处理章节中进一步讨论。
1.4 RNA测序
了解生物体的 DNA 序列及其调控元件的位置,并不能很好的知道细胞的动态和实时运行信息。例如,通过组合来自同一mRNA前体的不同mRNA剪接位点和外显子,一个基因可以编码多种蛋白质。这种选择性剪接事件是自然发生的,并且在真核生物中很常见。然而,变异可能会导致酶失去功能并诱发疾病状态。这就是 RNA 测序 (RNA-Seq) 发挥作用的地方。RNA-Seq 很大程度上遵循 DNA 测序方案,但包括逆转录步骤,其中从 RNA 模板合成互补 DNA (cDNA)。RNA 测序使科学家能够在测序时以基因表达谱的形式获得细胞、组织或生物体的snapshots。在比较基因型和其他实验处理时,这些信息可用于检测不同环境条件下疾病状态对治疗的反应的变化。与基于微阵列的测定或 RT-qPCR 等方法相比,现代 RNA 测序可以对转录本进行无偏差采样,后者需要探针设计来专门针对感兴趣的区域。获得的基因表达谱进一步能够检测基因亚型、基因融合、单核苷酸变异和许多其他有趣的特性。现代 RNA 测序不受先验知识的限制,可以捕获已知和新颖的特征,从而产生丰富的数据集,可用于探索性数据分析。
1.5 单细胞RNA测序
1.5.1 概述
RNA测序主要可以通过两种方式进行:对来自感兴趣来源的跨细胞的混合RNA进行测序(bulk批量测序)或对细胞的转录组进行单独测序(单细胞测序)。在大多数情况下,混合所有细胞的 RNA 比实验上复杂的单细胞测序更便宜、更容易。批量 RNA 测序会产生细胞平均表达谱,通常更容易分析,但也隐藏了一些复杂性,例如细胞表达谱异质性,这可能有助于回答感兴趣的问题。一些药物或干扰可能仅影响特定的细胞类型或细胞类型之间的相互作用。例如,在肿瘤学中,可能存在导致复发的罕见耐药肿瘤细胞,即使在培养细胞上,也很难通过简单的批量 RNA 测序来识别。
为了揭示这种关系,在单细胞水平上检查基因表达至关重要。然而,单细胞 RNA 测序 (scRNA-Seq) 确实有一些方面需要注意。首先,单细胞实验通常更昂贵且更难以正确进行。其次,下游分析由于分辨率的提高而变得更加复杂,并且更容易得出错误的结论。
一般来说,单细胞实验遵循与批量 RNA-Seq 实验相同的步骤,但需要进行一些调整。就像批量测序一样,单细胞测序需要裂解、反转录、扩增和最终测序。此外,单细胞测序需要细胞分离和物理分离到较小的反应室或另一种形式的细胞标记,以便能够稍后将获得的转录组映射回起源细胞。因此,这些也是大多数单细胞测定的不同步骤:单细胞分离、转录物扩增,以及根据测序仪进行测序。在解释不同的测序方法如何工作之前,我们现在将更仔细地讨论转录本定量。
1.5.2 转录本定量
转录本定量是计算已测序转录本与基因序列的比对率的过程。这些统计的比对率最终会进入count矩阵。 关于这个计算过程的更多细节将在之后描述。转录本定量有两种主要方法:全长full-length和基于标签tag-based。 全长方案试图通过测序读取均匀地覆盖整个转录本,而基于标签的方案仅捕获 5' 或 3' 末端。转录本定量方法对捕获的基因有很大影响,因此分析人员必须了解所使用的定量过程。全长测序仅限于plate-based的方案,并且文库制备与批量 RNA-seq 测序方法相当。全长方案并不总能实现转录本的均匀覆盖,因此基因体的特定区域可能仍然存在偏差。全长方案的一个主要优点是它们允许检测剪接变体。基于标签的方案仅对转录本的 3' 或 5' 末端进行测序。这是以不(必然)覆盖整个基因长度为代价的,使得很难明确地将读数与转录本对齐并区分不同的异构体。然而,它允许使用独特的分子标识符(UMIs),这对于解决转录物扩增过程中的偏差很有用。转录本扩增过程是任何 RNA-seq 测序运行中的关键步骤,以确保转录本足够丰富以进行质量控制和测序。在此过程中,通常通过聚合酶链式反应 (PCR) 进行,从原始分子的相同片段中复制出来。由于副本和原始分子无法区分,因此确定样品中分子的原始数量变得具有挑战性。使用 UMI 是量化原始非重复分子的常见解决方案。UMI 用作分子条形码,有时也称为随机条形码。这些“条形码”由短的随机核苷酸序列组成,作为独特的标签添加到样品中的每个分子中。必须在扩增步骤之前的文库生成过程中添加 UMI。准确识别 PCR 复制的能力对于下游分析排除或了解扩增偏差非常重要。扩增偏倚是指优先扩增的 RNA/cDNA 序列的术语,因此会更频繁地进行测序,从而导致更高的计数。它可能对任何基因表达分析产生不利影响,因为不太活跃的基因可能突然表现出高度表达。对于在 PCR 步骤的后期阶段扩增的序列尤其如此,其中错误率可能已经比早期 PCR 阶段相对更高。尽管在计算上可以通过删除具有相同比对坐标的读数来检测和删除此类序列,但通常建议如果可能的话,使用 UMI 设计实验。UMI 的使用进一步允许在不损失准确性的情况下对基因计数进行标准化。
1.5.3 单细胞测序方案
目前,存在三种类型的单细胞测序方案,主要根据细胞分离方案进行分组:基于微流体装置的策略,其中细胞被封装到水凝胶液滴中;基于孔板的方案,其中细胞被物理分离到孔中;最后,基于商业 Fluidigm C1 微流控芯片的解决方案将细胞加载并分离到小反应室中。这三种方法在恢复转录本的能力、测序细胞的数量以及许多其他方面有所不同。在以下小节中,我们将简要讨论它们的工作原理、优点和缺点,以及数据分析应注意的有关各自方案的可能差异。
1.5.3.1 基于微流体装置的方案
基于微流体装置的方案将细胞捕获在水凝胶液滴内,从而可以将细胞划分到单细胞反应室中。最广泛使用的协议包括 inDrop、Drop-seq和市售的 10x Genomics Chromium,能够每秒生成此类液滴数千次。这种大规模并行过程以相对较低的成本产生大量液滴。尽管这三种方案在细节上有所不同,但含有封装细胞的纳升大小的液滴始终被设计为同时捕获珠子和细胞。封装过程使用专门的微珠进行,珠上引物包含 PCR handle、细胞条形码和 4-8b bp 长的独特分子标识符(UMI)和poly-T 尾。裂解后,细胞的 mRNA 立即释放并被珠子上附着的带条形码的寡核苷酸捕获。接下来,收集并破碎液滴以释放附着在微粒上的单细胞转录组(STAMP)。随后进行 PCR 和逆转录以捕获和扩增转录本。最后,进行标记,随机切割转录本并连接测序接头。该过程产生的测序文库已准备好进行如上所述的测序。在基于微流体的方案中,仅回收了约 10% 的细胞转录本。值得注意的是,这种低测序足以稳健地识别细胞类型。
所有三种基于微流体装置的方法都会导致特征偏差。不同方案所使用的珠子材料有所不同。Drop-seq 使用脆性树脂作为珠子,因此珠子采用泊松分布封装,而 InDrop 和 10X Genomics 珠子可变形。 此外,捕获效率可能受到 Drop-Seq 中表面束缚引物使用的影响。InDrop 使用通过光裂解释放的引物,10X 基因组溶解珠子。这种差异也会影响逆转录过程的位置。在 Drop-seq 中,逆转录发生在珠子从液滴中释放后,而对于 InDrop 和 10X 基因组学协议,逆转录发生在液滴内部。
有研究比较发现10X Genomics 在珠子质量方面优于 inDrop 和 Drop-seq ,因为后两个系统中的细胞条形码包含明显的不匹配。 此外,10X Genomics 中来自有效条形码的读取比例为 75%,而 InDrop 中仅为 25%,Drop-seq 中仅为 30%。
10X Genomics 在灵敏度方面也表现出了类似的优势。在比较过程中,10X Genomics 平均捕获了来自 3000 个基因的约 17000 个转录本,而 Drop-seq 捕获了 2500 个基因的 8000 个转录本,InDrop 捕获了 1250 个基因的 2700 个转录本。10X Genomics 的技术噪音最低,其次是 Drop-seq 和 InDrop[Zhang et al., 2019]。
实际生成的数据显示出很大的偏差。10X Genomics 有利于捕获和扩增较短的基因和具有较高 GC 含量的基因,而 Drop-seq 相比之下更喜欢具有较低 GC 含量的基因。尽管 10X Genomics 在各个方面均优于其他方案,但每个细胞的成本也约为其他方案的两倍。此外,除了磁珠之外,Drop-seq 是开源的,如果需要,可以更轻松地调整协议。InDrop 是完全开源的,甚至珠子也可以在实验室中制造和修改。因此,InDrop 是三种方案中最灵活的。
优势:
--允许对大量细胞进行经济高效的测序,以确定组织的整体组成并表征稀有细胞类型。
--可以合并 UMI。
劣势:
--与其他方法相比,转录本的检出率较低。
--仅捕获 3’ 而不是完整的转录本,因为细胞条形码和 PCR handles仅添加到转录本的末尾。
1.5.3.2. 基于孔板的方案
基于孔板的方案通常将细胞物理分离到微孔板中。第一步需要通过例如荧光激活细胞分选(FACS)进行细胞分选,其中根据特定的细胞表面标记对细胞进行分选;或通过微量移液。然后将选定的细胞放入含有细胞裂解缓冲液的单独孔中,随后进行逆转录。这样可以在一次实验中分析数百个细胞,每个细胞捕获 5000 至 10000 个基因。基于孔板的测序方案包括但不限于 SMART-seq2、MARS-seq、QUARTZ-seq 和 SRCB-seq。一般来说,这些协议的不同在于其复用能力。例如,MARS-seq 允许三个条形码级别,即分子、细胞和板级标签,以实现强大的混样功能。相反,SMART-seq2 不允许早期混合样本限制细胞数量。
优势:
--检测每个细胞的许多基因,以便进行深入的表征。
--可以在文库准备之前收集信息,例如通过 FACS 分选将细胞大小和任何使用的标签的强度等信息与孔坐标相关联。
--允许复原全长转录本。
劣势:
--基于孔板的实验的规模受到其各个处理单元的较低吞吐量的限制。
--片段化步骤消除了链特异性信息。
--根据方案的不同,基于孔板的协议可能是劳动密集型的,需要许多移液步骤,从而导致潜在的技术噪音和批次效应。
1.5.3.3 Fluidigm C1
商用Fluidigm C1系统是一种微流控芯片,它以自动方式将细胞装载并分离到小型反应室中。CEL-seq2 和 SMART-seq方案在其工作流程中使用 Fluidigm C1 芯片,允许同时进行 RNA 提取和文库制备步骤,从而减少所需的体力劳动。然而,Fluidigm C1 需要相当均匀的细胞混合物,因为细胞将根据其大小到达微流控芯片上的不同位置,这可能会引入潜在的位置偏差。由于扩增步骤在各个孔中进行,因此可以进行全长测序,从而有效减少许多其他单细胞 RNA-seq 测序方案的 3' 偏倚。该方案通常也更昂贵,因此主要用于特定细胞群的广泛检查。
优势:
--允许完整长度的转录本覆盖。
--剪接变异和 T/B 细胞受体库多样性可以复原。
劣势:
--仅允许对最多 800 个细胞进行测序。
--每个细胞比其他方案更昂贵。
--仅捕获了约 10% 的提取细胞,这使得该方案不适合稀有细胞类型或低输入。
--使用的阵列仅捕获特定的细胞大小,这可能会使捕获的转录本产生偏差。
1.5.3.4 纳米孔单细胞转录组测序
由于长读测序仪的测序错误率较高,这会导致严重的问题。 勒比格兰等人推出了 ScNaUmi-seq(使用 UMI 的单细胞纳米孔测序),它将纳米孔测序与细胞条形码和 UMI 分配相结合。通过将 Nanopore 读数中发现的细胞条形码序列与从 Illumina 读数中恢复的相同区域或基因的细胞条形码序列进行比较,以 Illumina 数据指导条形码分配。然而,这实际上需要两个单细胞库。scCOLOR-seq 使用在条形码全长范围内互补的核苷酸对,通过计算方式准确无误地识别条形码。然后,这些条形码将用作纠正剩余错误条形码的指南。修改后的基于 UMI 工具定向网络的方法可纠正 UMI 序列重复。
优势:
--恢复剪接和序列异质性信息
劣势:
--纳米孔试剂价格昂贵。
--细胞条形码恢复错误率高。
--根据实验方案,条形码分配由需要两次测序测定的 Illumina 数据指导。
1.5.3.5 总结
总之,强烈建议湿实验室和干实验室科学家根据研究目的选择测序方案。是否需要对特定细胞类型群体进行深入表征?在这种情况下,基于孔板的方法之一可能更合适。相反,基于液滴的测定将更好地捕获异质混合物,从而对测序细胞进行更广泛的表征。此外,如果预算是一个限制因素,那么选择的方案应该更具成本效益和稳定。分析数据时,请注意测序测定的特定偏差。
1.5.4 单细胞与单核
到目前为止,我们只讨论了单细胞测定,但也可以仅对细胞核进行测序。单细胞分析并不总能提供对特定组织或器官(例如大脑)的细胞类型的不偏不倚的看法。在组织解离过程中,某些细胞类型更脆弱,因此难以捕获。例如,在小鼠新皮质中观察到的fast-spiking parvalbumin-positive中间神经元和皮质下投射的谷氨酸能神经元的比例低于预期。相反,非神经元细胞比神经元更好地在解离中存活,并且在成人新皮质的单细胞悬浮液中过多。此外,单细胞测序高度依赖新鲜组织,因此很难利用组织生物库。另一方面,细胞核对机械力的抵抗力更强,并且可以在不使用组织解离酶的情况下安全地从冷冻组织中分离出来。这两种选择在不同的组织和样本类型中都有不同的适用性,并且由此产生的偏差和不确定性尚未完全揭示。已经表明,细胞核准确地反映了细胞的所有转录模式。实验设计中单细胞与单核的选择主要取决于组织样本的类型。然而,数据分析应该意识到解离能力将对潜在可观察的细胞类型产生强烈影响。