2019年5月 week2 文献学习： Identifying cell populations with scRNASeq

2019-05-19 week2文献学习

纠结着要看什么文献，因为最近要开始准备托福考试，然后很想放弃一周一篇的文献学习，想想还是要学习的呢。然后刚好单细胞天地推送的一篇文献 Identifying cell populations with scRNASeq，就刚好拿起来读一读，加上最近自己用seurat 分析数据，也算是总结一下。

摘要

scRNASeq已成为量化单个细胞转录组的有效方法。然而，来自scRNASeq 实验的数据通常既有噪声又高维度，使得计算分析变得非常重要。在这里，我们提供了不同实验方案的概述和计算分析的最流行的方法，主要专注于识别生物学重要基因的方法，将数据投射到较低维度并将数据聚类到假定的细胞群体中。最后，我们讨论了鉴定细胞类型或细胞状态的验证和生物解释的方法。

文章主要综述了四方面的内容
1）实验方面：scRNAseq实验设计以及实验过程中产生的噪音；
2）如何解决数据的高纬度问题：一是降维，二是进行特征选择
3）如何将数据聚类到假定的细胞类群
4）如何鉴定细胞类型或者细胞状态

文章主要内容

一、实验方面

1. scRNAseq主要是分成三个方面

1）单细胞分离

1）细胞分离的过程需要将样品进行解离，然后分选到PCR的单独孔中，或者利用droplets或者microwells或者微流控捕获单个细胞
2）文库制备
文库制备需要反转录和扩增
3）测序

2）分选细胞的方法

对于一次性要获得很多细胞的研究，可以使用基于液滴的方法，比如In-drop, drop-seq以及10X Chromium，可以一次性捕获成千上万细胞。确定细胞类型所需的最低测序深度可以为25000-50000reads/cells。或者使用微孔的方法替代droplet的方法。但是这些方法需要在细胞裂解前加上barcode,因此只支持3/5端测序。
如果细胞量不大的话，可以使用流式分选，这些方法捕获细胞的性价比比较高，检出率也比较高，不仅可以支持3/5端测序，也可以支持全长转录本测序。

===收获：明白两种不同的分选细胞的策略，然后可以支持的测序方法也是不同的，才明白了实验室师姐所用的分选细胞的方法。

3）单细胞测序中存在的问题

1）Doublet的问题
Doublet是指一个液滴或者微孔中存在2个或者多个细胞，会对细胞类型的鉴定过程产生影响。
2）batch effect
批次效应是不同时间或者不同人员制备的实验重复之间的实验效率或者不同细胞状态而产生的。可以使用一些算法比如quantile，SVA的Combat， RUVs去除批次效应。

想要消除批次效应需要通过仔细的实验设计，将每个实验条件分散到各个实验批次中，做到一视同仁。【不大理解这样真的能消除批次效应吗？？】

2.scRNAseq中的技术噪音

解决办法：UMIs和已知浓度的外源RNA分子(spike-ins)

1）UMI

UMI是反向添加到每个cDNA的5或者3端，长度是4-10bp的分子，作用是区分哪些reads来自于同一个cDNA分子，然后用来估算原始的分子数量。但是存在一个问题UMI和转录本的5/3端结合后进行测序，会存在丢失isoform信息的情况，捕获的遗传变异较少等，评价等位基因较难等。

2）spike-ins

标准的spike-ins 是ERCC组织指定的一段细菌序列。存在的问题是：ERCC的捕获效率低于内源性mRNA,具有较高的技术变异性，有时比内源性基因的含量还多，spike-ins的计数受到生物条件的影响，因此有时候会失去作为control的优势。如果使用spike-ins，比对应该将spike-ins序列和参考基因组序列合并作为共同参考基因组。

3）多重测序

多重测序也是产生技术噪音的一个原因，因为它会导致不同细胞之间的reads不在一个层次上，使用标准化可以纠正不同细胞之间的的测序深度的影响。
SCnorm可以解释不同测序深度对基因不同表达水平的影响。

3)收获

== 还是不明白spike-ins是啥，作用是啥，不是很明白，是为了作为对照吗？但是知道了如果使用spike-ins，比对应该将spike-ins序列和参考基因组序列合并作为共同参考基因组。
== SCnorm可以解释不同测序深度对基因不同表达水平的影响。

二、数据维度的处理

1.降维

方法主要有PCA（线性降维），tSNE(非线性降维，主要用于数据的可视化)，DM方法（非线性降维，主要用于分析细胞的连续发展）

2.特征选择

移除掉信息量较少的基因，减少数据噪音，提高数据运行速度
M3Drop；HVG(High variabel genes);spike-in based methods; correlated expression.

一般的话是先进行特征选择，然进行降维，然后再进行细胞聚类

三、非监督聚类鉴定细胞类型

方法主要有k均值聚类，层次聚类，基于密度的聚类方法，图聚类方法。
聚类中最关键的一个点在于要聚多少类。
许多的聚类工具可以在ASAP中找到的~，是个web工具。

四、细胞类型的鉴定

1）计算角度
对数据运用多种聚类方法然后比较得到一个比较好的聚类结果。
计算方法主要是为了提高结果的可靠性，然后细胞类型的自动化鉴定未来我觉得可行的，并且是流行的。

2）实验角度
主要是基于Marker的方法~

五、总结

这篇文章算是帮我把分析思路再次理清了下，这次主要的收获在于对于UMI有了比较深的一个理解，对于特征选择和降维两者之间有了比较清楚地认识，这两种方法主要都是用于对于数据维度的处理，只是处理方法不一样，特征选择的话主要是移除掉信息量较低的基因。