单细胞RNA-seq(scRNA-seq)作为一种有前途的技术来表征和分析细胞间的变异性。 然而,技术噪声和固有生物学变异性的混合使得将技术伪像与真实生物学变异细胞分离特别具有挑战性。 在进行下游分析之前,正确检测和滤除技术伪影至关重要。 在这里,我们提出了一种协议,该协议整合了基因表达模式和数据质量,以检测scRNA-seq样本中的技术工件。
关键词:scRNA-seq,质量控制,整合,基因表达模式,数据质量
1 Introduction
单细胞RNA-seq(scRNA-seq)提供了一种相对公正的方法来研究复杂混合物中细胞的异质性[1]。 它彻底改变了我们理解细胞状态[2,3],谱系[4]和疾病[5]的转录组多样性的能力。 然而,这种技术的主要挑战之一是数据背后的噪音[6,7]。 例如,对低水平的mRNA进行分析可能会导致在逆转录步骤中丢失转录本(“缺失”事件),并且还会大大扭曲原始转录本的丰度[6,8]。 细胞群之间的最高差异表达基因的比较显示出较差的一致性,这表明高幅值异常值可能导致高变异[8]。 另一方面,细胞之间的基因表达固有地是随机的,并且细胞间的差异也可能是转录突发或波动的结果[9]。 scRNA-seq的质量控制和丢弃技术工件对于下游分析非常重要。
为了检测scRNA-seq中潜在的技术工件(坏样本),以前的研究使用了各种策略,这些策略通常可以分为三类。第一类是利用保留基因进行质量控制(QC)。例如,如果某些管家基因(如Actb)被过滤掉,细胞就会被过滤掉Gapdh)未表达或表达异常[10,11]。 这种方法的假设是管家基因高度一致地表达。 对于散装RNA来说确实如此,但对于单细胞则不一定如此(参见注1)。 例如,一项使用单细胞qPCR的研究表明,管家基因的表达在单个细胞之间差异很大,并且不同的细胞类型具有不同的管家基因表达模式[12]。 因此,对于scRNA-seq样品,依靠管家基因进行QC无效。 QC的第二类涉及使用整体基因表达模式来定义技术伪像。 例如,如果将细胞与大多数细胞相比不包括在下游分析中,则它们将显示出独特的基因表达模式[13](见注2–3)。此类方法的主要问题是它们可能会去除具有真正生物学变异的细胞。 第三类涉及使用检测到的基因数量和/或重新映射率来定义技术伪像[14]。 然而,根据特定文库的质量,细胞类型或RNA协议的不同,实验中检测到的基因数目也有所不同。 映射速率的截止也很难进行,因此截止的设置通常是任意的。 因此,尽管单细胞方法在研究细胞异质性方面具有广阔的前景,但质量控制仍然是主要挑战之一[7]。 然而,我们以前的研究和自己的工作表明,整合基因表达模式和测序数据质量可能是进行QC的可行策略[15]。 这种方法的基本假设是,如果基因表达异常值也与不良的测序文库质量有关,则它们比真正的生物变异细胞更可能是技术伪像。 我们还假设基因表达离群值包含具有真实生物学变异和技术伪像的细胞,但其余的细胞(主要种群细胞)通常更可能包含优质细胞。 因此,我们可以使用主要种群的细胞作为对照来估计数据质量的临界值和相应的假阳性率(FPR)(图1)。
在此,我们使用三批已发表的人类胚胎干细胞(ES cells) scRNA-seq数据[16],详细描述了我们在scRNA-seq中检测技术伪影的步骤。
2 Materials
2.1 Lab Equipment
1.C1单细胞汽车预科IFC (Fluidigm).
2 . EVOS FL自动细胞成像系统(Life Technologies)。
- Illumina HiSeq 2500系统。
2.2 Kits
- cDNA合成试剂盒(Clontech)。
2 PCR试剂盒(Clontech)
3 Nextera XT DNA样品制备索引试剂盒(Illumina)。
2.3 ScRNA-seq Data
原始scRNA-seq数据集(H1)可以由基因表达综合(GEO)访问,登录号为(GSE64016).2。 从GEO下载的文件为SRA格式3。 SRA工具包(http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
)可用于通过“ fastq-dump”实用程序将文件从SRAformat转换为FASTQ格式。
3 Methods
3.1 H1 HumanEmbryonic Stem Cells(hESCs
1.将未分化的H1人类胚胎干细胞(hESCs)在基质胶包被的组织培养板上的E8培养基[17]中培养,每日培养基在37 C和5%(vol / vol)CO2.的条件下饲养。
2 每3–4天将细胞用1 PBS中的0.5 mM EDTA进行分裂以进行标准维护。
3。 在为每种实验准备单细胞悬液之前,立即通过Accutase(LifeTechnologies)将hESC进行个性化,用E8培养基洗涤一次,然后以5.0–8.0 105细胞/ mL的密度重悬于E8培养基中以进行细胞捕获。
- The H1 hESCs is registered in the NIH Human EmbryonicStem Cell Registry with the Approval Number: NIHhESC-10-0043.5. Details of the H1 cells can be found online (http://grants.nih.gov/stem_cells/registry/current.htm?id=29
).
3.2 Single-CellCapture and cDNALibrary Preparation
1.将5000–8000个细胞加载到中等大小(10–17μm)的C1单细胞自动制备IFC(Fluidigm)中。
2。 使用EVOS FL Auto CellImaging系统(Life Technologies)检查捕获效率,以对IFC.
3上的96个捕获位点执行自动区域扫描。 首先注意到空的捕获位点或捕获了多个细胞的位点,随后将这些样品从进一步的文库处理中排除出来,用于RNA-seq.
4。 捕获和成像后,立即使用SMARTer PCR cDNA合成试剂盒(Clontech)和Advantage 2 PCR试剂盒(Clontech)在C1系统中进行逆转录和cDNA扩增。
5。 第二天,从C1芯片上收获了全长的单细胞cDNA文库,并稀释至0.1–0.3 ng /μL.的范围。
6.使用Nextera XT DNA样品制备试剂盒和Nextera XT DNA样品制备索引试剂盒(Illumina)对稀释的单细胞cDNA文库进行片段化和扩增。7。 库以每泳道24个库的形式进行多路复用,并在Illumina HiSeq 2500系统上对67 bp的单端读取进行测序
3.3 Reads Mapping
1.使用Bowtie [18]将原始读物映射到参考基因(例如人类hg19 Refseq参考),从而允许最多两个错配和最多20个多重匹配。
- 映射的预期阅读计数和TPM可以通过RSEM估算[19]。
3.4 Classification ofCells into GeneExpression Outliersand Cells of the MainPopulation
1.给定一个单元格,计算Spearman等级相关性列表,将给定单元格与数据集中的其余单元格进行比较(“一对一”)。
2.然后,删除该给定的单元格,并为其余单元格计算成对的Spearmanrank相关性列表(“成对”)
3。 使用单向Wilcoxon符号秩检验来评估“一对一”相关性是否显着低于“成对”相关性的设置。
4。 还使用Pearson乘积矩相关来执行类似的过程。
5.基于两个测试的p值将细胞分类为基因表达异常值或主要群体的细胞。6。 在这项研究中,我们将基因表达异常定义为Spearman和Pearson检验中p值小于0.001的细胞。
3.5 Metrics toEvaluate the scRNA-seq Library Quality
1.定位读段总数:所有基因的定位读段总数。 极少的定位读图可能会影响表征转录组的能力,可能是由于定位速率低或样品制备或测序过程中引入了其他技术问题。
2.映射率:映射的读取总数除以读取深度。 定位速率可能受RNA降解,基因组DNA污染或样品制备或测序过程中引入的其他技术问题的影响; 3。 读取次数复杂度:唯一读取次数(删除重复项后的读取次数)占所有读取总数的比率。
3.6 CombiningLibrary Quality Metricsto Combined Scores
-
对于每个单元格,计算每个质量度量的分位数分数(QS)。给定一个度量,一个单元格的q被定义为数据集中具有相同或更低值的其他单元格的数量除以单元格的总数。例如,如果一个单元格在一组80个单元格中具有第20高的映射率,那么这个特定单元格的mappin篦q值为0.75。较高的质量分数表明数据质量较好。
2.最小分位数分数(MQS):三个相等度量的最小q。
MQS假设这三个质量度量中的每一个都是关键的,并且这三个中的任何一个缺陷都是技术问题的潜在指示器。因此,一个单元的最终质量取决于它最慢的质量度量分数
-
加权综合质量得分(WCQS):WCQS假设每个质量指标的重要性可能取决于特定的实验批次,协议和/或条件.WCQS假设每个质量指标对检测技术伪像的重要性与其在基因表达之间进行区分的能力成正比。 主要人群的异常值和细胞。 例如,在给定一批细胞的情况下,如果给定一批细胞的包封率可以在基因表达异常值和主要人群的细胞之间完美地区分,那么定位率很可能在检测技术伪像中起主导作用。 相反,如果一个度量标准不能表示主要人群的基因表达异常值和细胞之间的差异,则应将其删除根据潜在技术工件的预测。 WCQS计算每个样本的加权聚集质量得分,定义为:
3.7 Identification ofTechnical
1.我们假设高质量的单元格应该通过特定的MQS和WCQS临界值。 我们使用主要种群的细胞作为对照来确定这些临界值(见注4)。 您可以枚举给定数据集中所有可能的MQS和WCQS临界值组合对,计算通过该对的两个临界值的主要种群的细胞比例,然后使用主要种群的剩余细胞来估计相应的假阳性率(FPR) 那对(图1).
2。 如果一对以上的MQS和WCQS临界值导致相同的FPR,则可以选择一个临界值对,以使未能通过的基因表达异常值的百分比最大化
3。 将这些临界值应用于基因表达异常值以识别技术伪像。 技术工件被定义为数据质量测量值较差的基因表达异常值
3.8 SinQC Software
- SinQC [15]设计用于实现(小标题3.3-3.6)(见注5).2。 SinQC软件和详细的用户手册可从以下网址获得:http://www.morgridge.net/SinQC.html
4 Notes
1.一些研究使用管家基因对scRNA-seq数据集进行质量控制[10,11]。 为了进一步研究使用管家基因对scRNA-seq数据集进行质量控制的可行性,我们计算了两个管家基因(ActbandGapdh)在不受欢迎的scRNA-seq数据集中的基因表达水平(TPM)[20]。 ES细胞中的Gapdhis显着高于MEF细胞(P¼5.6e–06,单面Wilcoxon秩和检验),而Actbis的ESbi显着低于MEF细胞(P <2.2e–16,1-面Wilcoxonrank总和)[15 ]。 这表明利用管家基因对scRNA-seq数据集进行QC是不可行的。
2。 使用中位基因表达值或检测到的基因数量(TPM> 1)进行质量控制(QC):低数据质量(例如,低定位率)可能导致检测到的基因数量较少或中位基因表达值较低。 但是,检测到的基因数量(TPM> 1)也可能在生物学上相关。 检测到的基因数量取决于特定文库的质量和细胞类型[8]。 我们计算了在高度异质的scRNA-seq数据集中包含301个细胞(11种不同细胞类型的混合物)的检测到的基因数量[4]。 检测到的基因数量高度依赖于细胞类型,这表明使用检测到的基因数量来鉴定技术伪像将导致明显的偏倚([15],图S8)。 对于高度异源的scRNA-seq数据集,与QC传代细胞相比,通过这种方法检测到的技术伪像更有可能检测到较少的基因。 但这并不意味着检测到较少基因的细胞就是技术伪像。
3。 使用“检测到的基因和/或作图率的基因”执行质量控制(QC):使用“检测到的基因和/或作图率的基因” [14]进行质量控制的基本思想是,检测到的基因数量较少可能是由于 技术问题和生物异质性。 但是,如果检测到较少基因的细胞也与低定位率相关(映射率与技术有关),则该细胞很可能是技术伪像。 这种方法在概念上最类似于我们的方法。 然而,我们的方法在两个方面具有优势:首先,由于定位速率和检测到的基因数量不直接相关,因此定位速率的截止和选择的检测到的基因数量非常困难和任意。 我们的方法通过使用主要人群的单元格作为数据质量控制,最大程度地提高了正确检测技术工件的可能性,同时还最大限度地减少了误报率。 其次,除了maprate之外,我们的方法还考虑了其他文库质量指标(例如文库复杂性)。Single-Cell RNA-seq7的质量控制
4.我们的方法假设基因表达异常值包含技术伪影和生物变异细胞,但总体上,主要种群的细胞更可能包含优质细胞。 因此,我们的方法使用主要人群的细胞作为对照来估计数据质量得分的临界值和相应的误报率(FPR)。 但是,在给定aFPR的情况下,估计相应的假阴性率(遗漏的技术假象)是一项挑战,因为scRNA-seq对“不良样品”没有“真实性”。敏感性(也称为 真实阳性率)是正确识别的阳性(“技术假象”)的比例。特异性(也称为真实阴性率)衡量正确识别的阴性(“优质单细胞”)的比例。 由于scRNA-seq对“好样本”和“坏样本”没有“真实性”,因此直接估计这两项测量值是一个挑战。 为了进一步比较我们的方法在高异质性和低异质性数据集中的敏感性和特异性,我们将我们的方法应用于混合了不同类型细胞类型的数据集,并比较了其中检测到的技术工件的重叠。 例如,使用小鼠scRNA-seq数据集(48个ES细胞和44个MEF细胞)[20],我们将细胞混合为三种不同的类别:高异质性(48个ES细胞+ 44MEF细胞),中等异质性(“ ES细胞” (全部)+ 1/5(MEF)个细胞”和“(“ MEF细胞(所有)+ 1/5(ES)个细胞”)”和低异质性(((48个ES细胞)和(44个MEF细胞),分别) 我们的方法在高异质性数据集(48个ES细胞+44个MEF细胞)中检测到两个技术伪像(ESC_46和ESC_32),在中等异质性数据集或低异质性数据集中也可以稳健地检测到这两个技术伪像。 我们的方法分别针对各个ES(48个细胞)或MEF(44个细胞)数据集,与将我们的方法应用于合并的混合数据集(48个ES细胞+44个MEFcells)相比,我们可以检测到更多的假象。 当数据集中的异质性程度很高时,以降低灵敏度为代价提高特异性。 种群中,检测技术伪像会降低掉落真实生物变异细胞的风险。 我们的方法对高度异质性细胞群的特异性增加和灵敏度降低是一个很好的功能,可以最大程度地减少假阳性。
5。 正在运行的用于scRNA-seq QC的SinQC不限于RSEM输出文件(“ * .genes.results”)。 对于不使用RSEM的用户,他们可以制作一个自定义的RSEM文件(“ * .genes.results”)以运行SinQC。 可以在SinQC网站(http://www.morgridge.net/SinQC.html)中找到详细的手册。