28、第二十八计 上屋抽梯
上楼以后拿掉梯子。借指与人密谈。也用以比喻怂恿人,使人上当。
此计是说借给敌人一些方便(即我故意暴露出一些破绽),以诱导敌人深入我方,乘机切断他的后援和前应,最终陷他于死地。
子曾经曰过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。在我们拿到单细胞数据之后,第一步往往是对数据的质控(Quality Control),或曰数据清洗(Data Clean)。虽然在步骤上已成惯例,但是目前尚无统一标准,本期单细胞数据科学就和大家探讨一下数据质控的原则。
质控者视角
从一个待解离的组织到一个可分析的矩阵,每一步都需要质量控制。如:
- 细胞活性
- 红细胞裂解
- 细胞计数
- cDNA文库质检
- 测序reads质控
- 识别有效barcode
- 细胞过滤
- 基因过滤
当我们提到单细胞数据质控的时候,一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。这三类barcode的特征可以通过其对应的基因表达情况来描述:nCount(总基因表达数)、nFeature(总基因数)、percent.HB(红细胞基因表达比例)、percent.MT(线粒体基因表达比例)。nCount和nFeature过高可能是双细胞,过低可能是细胞碎片。percent.HB刻画红细胞比例,percent.MT刻画细胞状态,值过高可能是濒临死亡的细胞。percent.MT的值和目标组织有关,有些组织细胞处于高度新陈代谢中,percent.MT会高于正常组织。
质控层次
单细胞数据可以从以下三个层次上来质控:
- 样本
- 细胞
- 亚群
以样本为单位的质控是最常见的,即以样本为单位来观察reads质量、nCount、nFeature、percent.HB、percent.MT等描述细胞状态的指标,如:
这种观察到的质量是样本的质量,得出的结论可能是:某个样本的线粒体基因表达较高,得到的是对样本的评价。在观察过数据基本分布之后,对数据有了一定的认知,实际分析管线中是按照单细胞来过滤的,很少出现直接去掉一个样本的情况,常见的流程是这样的:
单细胞数据分析的基本单位是亚群(Cluster)。将这一原则应用到数据质控的话,在每次分完群之后就应该观察每个亚群的质量指标。毕竟物以类聚,质量差的细胞会聚成一个类。这样不至于质控的对象太大(样本),也不至于太小(单个细胞)。
数据质控要则
数据质控的基本问题是:去掉什么,保留什么。
回答是:去掉的是垃圾,保留的是数据。
在数据分析的开始,甚至是探索性数据分析之前,鉴于我们对数据内在规律知之甚少,数据质控的原则是:You can't stop it if you can't see it. 即,如果不能确定是数据中的垃圾,就保留下来,因为你去掉的可能是一个重要的基因或重要因素或重要稀有细胞亚群。基于这个原则,我们就不会过于纠结线粒体阈值到底是20%还是50%,就不会纠结双细胞的阈值该是多少。因为我们质控的目的是去掉不是细胞的东西,不能排除某种状态的细胞,在下游分析中,会成为我们苦苦寻找的那一个。
另一个技术上的原因是:过滤掉一些细胞很容易,过滤之后再加回来就困难了。如上面的代码,很容易subset
掉不符合条件的细胞,如果在下游的分析中发现质控太严格,是不容易把它们加回到数据对象中的。
以上,在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息。
原文链接:单细胞转录组数据质控要则