02 生成单细胞测序表达矩阵

本文来源于哈佛大学的单细胞课程系列，在此做一些学习，不当之处请指正。

scRNA-seq/02_SC_generation_of_count_matrix.md at master · hbctraining/scRNA-seq · GitHub

https://github.com/hbctraining/scRNA-seq/blob/master/lessons/02_SC_generation_of_count_matrix.md

单细胞RNA序列数据-计数矩阵的原始数据

根据所用文库制备方法的不同，RNA序列（也称为读段或标签）将从（10X基因组学，CEL-seq2，Drop-seq）的3'端（或5'端）获得转录本片段或全长转录本（Smart-seq）。

image

图片来源：**** Papalexi E和Satija R.单细胞RNA测序探索免疫细胞异质性，《自然评论免疫学》（Nature Reviews Immunology）2018（https://doi.org/10.1038/nri.2017.76）

方法的选择涉及感兴趣的生物学问题。下面列出了这些方法的优点：

3'（或5'）端测序：
通过使用独特的分子标识符进行更准确的定量，从而将生物学复制品与扩增复制品（PCR）复制品区分开
测序的细胞数量更多，可以更好地鉴定细胞类型群体
单位成本便宜
10,000个以上的细胞可获得最佳结果
全长测序：
检测表达的同工型水平差异
鉴定表达中的等位基因特异性差异
更深层次的测序，数量更少的细胞
最适合细胞数少的样品

3'末端测序需要进行与全长相同的许多分析步骤，但是3'方案越来越流行，并且在分析中还包含一些其他步骤。因此，我们的材料将详细介绍这3'方案的数据分析，重点是基于液滴的方法（inDrops，Drop-seq，10X Genomics）。

个人备注：5'末端测序可以同时检测VDJ, 分析BCR/TCR的变化，对于免疫细胞分化具有重要帮助。

3'末端读取（包括所有基于液滴的方法）

对于scRNA-seq数据的分析，有助于了解每个读数中都包含哪些信息，以及我们如何在整个分析过程中使用它。

对于3'端测序方法，源自同一转录本的不同分子的读段仅会源自转录本的3'端，因此具有相同序列的可能性很高。但是，文库制备过程中的PCR步骤也可能会产生重复读物。为了确定读数是生物学的还是技术的重复，这些方法使用唯一的分子标识符或UMI。

具有映射到相同转录本的不同UMI的读段来自不同的分子，并且是生物学上的重复-每个读段均应计数。
具有相同UMI的读数来自同一分子，并且是技术重复品-UMI应该合并起来才能计为一次读数。
在下图中，应合并ACTB的读取并将其计为单个读取，而应将ARL1的读取各计数。

image

图片来源：****由Macosko EZ等人修改。使用纳升微滴对细胞进行高度并行的全基因组表达谱分析，Cell 2015（https://doi.org/10.1016/j.cell.2015.05.002）

因此，我们知道我们需要跟踪UMI，但是还需要什么其他信息来正确量化样本中每个细胞中每个基因的表达？无论采用液滴法，在细胞水平进行正确定量都需要以下条件：

样本索引：确定读取来自哪个样本
库准备过程中添加-需要记录
细胞条形码：确定读取来自哪个细胞
每种文库制备方法都有在文库制备过程中使用的细胞条形码库存
唯一分子识别符（UMI）：确定读取的是哪个转录物分子
UMI将用于合并PCR重复项
读取1序列：读取1序列
读取2序列：读取2序列

例如，当使用inDrops v3库准备方法时，以下内容表示如何通过四次读取来获取所有信息：

image

图片来源：**** HMS单细胞测序核心主管Sarah Boswell

R1（61 bp读1）：引物序列（红色顶部箭头）

R2（8 bp索引读取1（i7））：细胞条形码-读取细胞的来源（紫色顶部箭头）
R3（8 bp索引读取2（i5））：样本/库索引-所读取的样本源自（红色底部箭头）
R4（14 bp读取2）：读取2和剩余的细胞条形码和UMI-读取的转录本源自（紫色底部箭头）

对于不同的基于液滴的scRNA-seq方法，scRNA-seq的分析工作流程相似，但是UMI，细胞ID和样品索引的解析在它们之间将有所不同。例如，以下是10X序列读取的示意图，其中索引，UMI和条形码的放置位置不同：

image

图片来源：**** HMS单细胞测序核心主管Sarah Boswell

单细胞RNA-seq工作流程

scRNA-seq方法将确定如何从测序读数中解析条形码和UMI。因此，尽管一些特定步骤会稍有不同，但无论采用哪种方法，总体工作流程通常都将遵循相同的步骤。常规工作流程如下所示：

image

图片来源：****医学博士Luecken和FJ Theis。单细胞RNA序列分析中的当前最佳实践：教程，Mol Syst Biol 2019（doi：https* : //doi.org/10.15252/msb.20188746）*

工作流程的步骤是：

计数矩阵的生成（特定于方法的步骤）：格式化读取，对样本进行校正，映射和量化
原始计数的质量控制：劣质细胞的过滤
筛选细胞聚类：基于转录活性的相似性对细胞进行聚类（细胞类型=不同聚类）
标记鉴定：鉴定每个簇的基因标记
可选的下游步骤

无论进行何种分析，基于每种条件的单个样本得出的种群结论都是不可信的。仍然需要生物替代品！也就是说，如果您要得出与总体相对应的结论，而不仅仅是单个样本。

计数矩阵的生成

我们将从讨论此工作流程的第一部分开始，该部分将根据原始测序数据生成计数矩阵。我们将重点介绍基于液滴的方法（如inDrops，10X Genomics和Drop-seq）使用的3'末端测序。

image

测序后，测序设备将以BCL或FASTQ格式输出原始测序数据，或生成计数矩阵。如果读取的是BCL格式，则我们将需要转换为FASTQ格式。有一个有用的命令行工具bcl2fastq，可以轻松地执行此转换。

注意：在工作流程的此步骤中，我们不进行多路分解。您可能已对6个样本进行了测序，但所有样本的读数可能全部存在于同一BCL或FASTQ文件中。

对于许多scRNA-seq方法，从原始测序数据中生成计数矩阵都将经历相似的步骤。

image

umis和zUMIs是命令行工具，用于估计已对转录本的3'端进行了测序scRNA-seq数据的表达。两种工具都合并了UMI的合并，以校正放大偏差。此过程中的步骤包括：

格式化读取并过滤的细胞条形码
校正样本
映射/伪映射到转录组
UMI和读数量化

如果使用10X Genomics库制备方法，则Cell Ranger流程将用于上述所有步骤。

1.格式化读取并过滤嘈杂的细胞条形码

然后，FASTQ文件可用于解析细胞格条形码，UMI和样本条形码。对于基于液滴的方法，由于以下原因，许多细胞条形码将匹配少量读取（<1000个读取）：

垂死细胞中游离浮动RNA的包封
表达少量基因的简单细胞（RBC等）
由于某种原因而失败的细胞格

在读取比对之前，需要从序列数据中过滤掉这些多余的条形码。为了进行这种过滤，提取并保存每个细胞的“细胞条形码”和“分子条形码”。例如，如果使用“ umis”工具，则信息将以以下格式添加到每次读取的标题行中：

<pre style="margin: 0px; padding: 0px; max-width: 100%; overflow-wrap: break-word !important; box-sizing: border-box !important; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">@HWI-ST808:130:H0B8YADXX:1:1101:2088:2222:CELL_GGTCCA:UMI_CCCT AGGAAGATGGAGGAGAGAAGGCGGTGAAAGAGACCTGTAAAAAGCCACCGN + @@@DDBD>=AFCF+<CAFHDECII:DGGGHGIGGIIIEHGIIIGIIDHII#</pre>

文库制备方法中使用的已知细胞条形码应该是已知的，未知的条形码将被丢弃，同时允许与已知细胞条形码的可接受的不匹配数。

2.校正样本读取

如果测序多于一个样品，则该过程的下一步是对样品进行多路分解。这是该过程的第一步，不是由“ umis”工具处理，而是由“ zUMIs”完成。我们将需要解析读取以确定与每个细胞相关的样本条形码。

3.映射/伪映射到cDNA

为了确定读段源自哪个基因，使用传统的（STAR）或轻量级方法（Kallisto / RapMap）对读段进行比对。

4.合并的UMI和读数的量化

重复的UMI被合并，并且使用Kallisto或featureCounts之类的工具仅量化唯一的UMI。产生的输出是按基因矩阵计数的细胞：

image

图片来源：****摘自Lafzi等。教程：《单细胞RNA测序研究实验设计指南》，《自然协议》 2018（https://doi.org/10.1038/s41596-018-0073-y）

矩阵中的每个值代表源自相应基因的细胞中的读取次数。使用计数矩阵，我们可以探索和过滤数据，仅保留更高质量的细胞。

本课程由哈佛大学生物信息学核心（HBC）的教学团队成员开发。这些是根据知识共享署名许可（CC BY 4.0）的条款分发的开放获取材料，只要注明原始作者和出处，就可以在任何介质中进行不受限制的使用，分发和复制。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

02 生成单细胞测序表达矩阵

单细胞RNA序列数据-计数矩阵的原始数据

3'末端读取（包括所有基于液滴的方法）

单细胞RNA-seq工作流程

计数矩阵的生成

1.格式化读取并过滤嘈杂的细胞条形码

2.校正样本读取

3.映射/伪映射到cDNA

4.合并的UMI和读数的量化

推荐阅读更多精彩内容