单细胞测序-如何选择适合的scRNA测序方法

自从2009 年首篇关于scRNA-seq的文章发表以来，这项技术正在被广泛的采用。随着测序平台商业化的迅速发展和相关生物信息学方法的不断成熟，带来了很多生物医学领域新的发现。上期我们简单的介绍了scRNA-seq的背景和数据的复杂性，这一期我们将和大家一起深入了解一些技术细节。只有充分了解了数据复杂性的缘由，我们才能够更好的理解分析流程并且灵活的运用分析方法。

五花八门的protocol，你pick哪一个？

虽然scRNA-seq能被用来回答多个方面的生物学问题（例如细胞群体异质性, 识别罕见细胞亚群, 发育谱系等), 但需要注意我们所得到的结果可能会因为采用的技术平台不同而发生变化。根据不同的文库制备方法，主要有两种RNA序列（same as reads or tags）的获取方式：3’-end sequencing（应用于10X Genomics, CEL-seq2, Drop-seq, inDrops）和 Full-length sequencing（应用于Smart-seq），它们各有所长并适用于不同情况：

· 3’-end sequencing:

o 使用唯一分子标识（umi），能更准确的区分biological duplicates和amplification duplicates。

o 测序的细胞数量更大（高通量），通常细胞数量需要大于10k。

o 单位细胞的测序成本低。

· Full-length sequencing:

o 适合可变剪切差异表达（isoform-level differences）和等位基因差异表达（allele-specific differences）的分析。

o 通常细胞数量少，测序深度高。

Figure 1 | Overview of scRNA-seq technologies; from Satija et al.,[1].

Ziegenhain et al. [2] 研究表明，常用的protocols对表达量的检测准确度都很高，主要区别在灵敏度（the lowest number of transcripts that can be reproducibly detected），灵敏度高的protocols能覆盖到更多的低表达基因。研究人员应该根据具体的需要来选择：譬如想最大程度的获取转录组信息的话，具有高灵敏度的SMART-seq2是不错的选择；MARS-seq更适合细胞数较少的情况；在其他的一些应用中，例如识别细胞类型，则细胞数目的要求更高，高通量是关键，Drop-seq就比较有优势，但同时trade-off就是灵敏度的降低。

Taken from Haque et al., [3].

所有protocols都会面对的一个主要问题是实验产生的technical variation。有些采用“spike-in”来判断技术引入的差异程度，并且能用来矫正样本间的批次效应，找出真正具有高生物意义差异的基因。但是它操作起来比较复杂，需要找准spike-in在reads中的最佳比例；混入了spike-in的样本对degradation比较敏感，容易在暂时分开的样本中引入批次差异；并且研究表明spike-in的捕获率比内源性转录本要低，这就容易对technical variability的检测产生误差。

除了使用spike-in，唯一分子标识（unique molecular identifiers ，UMI）则是另一种普遍的选择。它可以有效的对每个细胞中的mRNA分子贴上一个唯一的识别码，从理论上来说，可以用于估算绝对分子量（absolute molecule counts），不过在高表达水平下, UMI可能会达到饱和，影响估算值的准确度。尽管如此，UMI是能够大大的降低在扩增过程中产生的偏差，提高检测的精确度。总的来说，这两种方法比较常见但各自被用于不同的平台。例如spike-in与Drop-let based的方法不兼容，而UMI则常用于3’-end sequencing（such as CEL-seq2, Drop-seq and MARS-seq）。

灵魂发问：How many cells must I sequence and to what depth?

测序需要的细胞数跟样本的异质性相关，即样本复杂度越高，需要的细胞数木越多。例如高度多样化的T淋巴细胞群，能表达不同的antigen receptors，更多的细胞能提高检测不同亚群的检验效能（statistical power）。当然很多时候我们无法预估检测样本的异质性，不过如果有其他类型的单细胞数据，例如flow- or mass-cytometric data存在的话，可以参考做一个功效分析（power calculation）和样本量估计分析（group size estimation）。

根据研究目的不同，测序深度的选择也不同。对于探索组织中存在哪些细胞亚群或者识别罕见细胞类型的研究，提高检测细胞数并保持相对较低的测序深度是比较实用且实惠的选择。一般来说，测序深度保持在10k-50k per cell就能做到unbiased 细胞分类，随着测序细胞数目的增加，检测到概率<1%的亚群的power越大 [3]。

测序深度低相对应的风险就是无法全面的捕获mRNA分子，造成一些重要基因的表达值缺失（dropout），尤其是低表达基因。因此当研究目的是针对特定细胞群的转录组分析时，增加测序深度就很必要了。10x建议至少20k read pairs per cell。有研究表明[3]，当前普遍的protocol在测序深度达到1m 的时候单细胞文库就接近饱和（saturation）了，而且绝大多数基因在深度达到～500k reads的时候就都能被检测到。来自Rich-Griffin et al., [4] 的tips：如果研究目的是针对表达谱，特别是低表达量基因，测序深度需要达到高于90%的饱和度；如果是关于细胞亚群分类，测序饱和度的需求可以适当降低。

核心分析流程an overview of scRNA-seq workflow

在对测序仪生成的对原始数据进行处理时，具体的步骤可能会根据因存在的文库构建方法和具体的研究的问题而略有差异，但其核心的工作流程还是大致类似的。常规的分析流主要包括以下几个步骤：

· 获取原始计数矩阵（raw count matrix）：包括有reads质量控制，基因组比对和转录组定量。

· 对原始计数矩阵的质量控制（QC of raw count matrix）:筛除低质量的细胞

· 数据标准化（normalization）和数据矫正（如果存在批次差异的话）。

· 特征选择（feature selection），降维（dimensional reduction）以及可视化（visualization）。

· 更多的下游分析：包括细胞聚类（clustering）和细胞类型注释（cluster annotation），寻找标记基因（marker identification），基因差异表达分析等。

Figure 1 | Schematic of a typical single‐cell RNA ‐seq analysis workflow; From Luecken et al.,[5]

小编总结

目前来说3’-end sequencing的方法更流行，但是相关的数据出分析上则更加复杂一点。

在我们之后相关的文章中，会着重于来自Droplet-based 方法的数据，给大家带来具体的例子进行分析，并对核心的分析步骤进行详细的展开和讨论，也可在V信"作图丫"获取同样精彩内容。

参考文献：

[1] Papalexi, E., Satija, R. Single-cell RNA sequencing to explore immune cell heterogeneity. Nat Rev Immunol 18, 35–45 (2018).

[2] Ziegenhain C, Vieth B, Parekh S, et al. Comparative Analysis of Single-Cell RNA Sequencing Methods. Mol Cell. 2017;65(4):631-643.e4. doi:10.1016/j.molcel.2017.01.023

[3] Haque, A., Engel, J., Teichmann, S.A. et al. A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med 9, 75 (2017).

[4] Rich-Griffin C, Stechemesser A, Finch J, Lucas E, Ott S, Schäfer P. Single-Cell Transcriptomics: A High-Resolution Avenue for Plant Functional Genomics. Trends Plant Sci. 2020;25(2):186-197. doi:10.1016/j.tplants.2019.10.008

[5] Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol Syst Biol. 2019;15(6):e8746. Published 2019 Jun 19. doi:10.15252/msb.20188746

最后编辑于：2021.01.17 15:56:54

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

单细胞测序-如何选择适合的scRNA测序方法

五花八门的protocol，你pick哪一个？

灵魂发问：How many cells must I sequence and to what depth?

核心分析流程an overview of scRNA-seq workflow

小编总结

推荐阅读更多精彩内容