单细胞数据科学四大过程组两大知识领域与三重境界

很多朋友问是如何保持阅读量的,其实,大部分是之前的存货。有一部分是每有会意,把之前的旧书拿出来再翻一翻,做个导图放上来的。今天,我想和大家分享一点最近对单细胞数据科学的理解,总结为一句话:

单细胞数据科学四大过程组两大知识领域与三重境界

说到单细胞数据科学,不得不回忆起2020年的一个无名的夜晚,那一晚无意间浏览到一篇文章:

Eleven grand challenges in single-cell data science ,Lähnemann et al. Genome Biology (2020) 21:31

这是我第一次知道有单细胞数据科学这一概念,后来以single-cell data science(SCDS)作为关键字,做过几次检索,也读过几本数据科学的书籍,这个概念慢慢明晰起来。当别人在讨论单细胞数据分析、生信分析、数据挖掘的时候,我开了一个单细胞数据科学专栏。在单细胞生信分析到单细胞数据科学的过渡中,有一篇文章不得不提:

Luecken MD, Theis FJ. Current best practices in single-cell RNA-seq analysis: a tutorial. Mol. Syst. Biol. 2019, 15: e8746.

在这篇文章中,作者提出了单细胞数据分析的最佳实践,也奠定了目前大部分单细胞数据分析的基本框架:

不管哪家公司做的数据分析,不管是哪个平台的单细胞数据,数据分析的基本流程逃不过这个流程。

现在看来,虽然这两年单细胞技术也在发展,数据分析工具依然层出不穷,但是2020年的时候,数据分析的基本框架基本形成。这两年大家基本上是在反刍前人的理念。

这并不妨碍我们依然可以发现许多新的见解,如任老师在一次访谈中提出:

  • monocle把单细胞从分析离散的亚群推向刻画发育的连续性。
  • RNA velocity 把绝对定量扩展到可变剪切。
  • scomap把组织解离损失的空间结构找回来

书读百遍,其意自见。下面就来分享一下:单细胞数据科学四大过程组两大知识领域与三重境界。

四大过程组

单细胞数据科学的过程主要是:

  • 产生矩阵。成熟的细胞解离、分离、细胞标记、核酸捕获、二代测序,为获得高通量的单细胞表达矩阵提供了保证。也是单细胞数据科学的第一个过程组,也可以唤作实验过程组。这个过程组中可以选择不同通量、不同平台。

  • 探索数据。获得单细胞矩阵之后,接下来是简要探索一下数据的基本表现,正所谓:降维聚类,必知必会。这个过程组中,最基本的品格是:探索时贪婪。从不同侧面观察数据,选取不同特征表现数据,不同分组间差异基因分析。数据探索的方法流程都比较成熟,如R语言生态下的Seurat,python生态下的scanpy,不需要太多的生物学背景。

  • 推断分析。与数据探索不同,推断分析需要分析者具备一定的生物学背景,这样的推断才是有方向的,也才是有益的。推断过程组可以分为两个小方向:细胞方向的细胞轨迹、基因方向的调控与通路。

  • 多方验证。随着单细胞技术的发展,单细胞数据往往需要和其他技术或组学相互结合与验证。此过程组的基本品格是:探索时贪婪,验证时谨慎。

两大知识领域

单细胞数据科学可以分为两大知识领域,一个是细胞层面的细胞生物学,一个是基因表达或者表观的高通量多组学。

  • 细胞层面的细胞生物学,可以说是连接的是细胞表型,如细胞类型、细胞图谱,细胞之间的关系。推荐的书籍有《细胞生物学》、《细胞》、《癌生物学》、《医学免疫学》等。
  • 基因表达或者表观的高通量多组学,可以说是连接的是分子机理,往往指向的是基因表达调控的特异性。推荐的书籍有《细胞分子生物学》、《基因X》、《分子生物学》、《高通量测序技术》等。

这两大知识领域目前都是在不断快速发展过程中,单细胞技术也在促进我们不断拓展这两大知识领域的认知边界。

三重境界

说起三重境界,我们都不陌生。虽然我们已经归纳出单细胞数据科学有迹可循,但是这一点也不妨碍数据科学是一个需要探索、发掘、验证、攀登的科学这一事实。特别是单细胞技术在如此火热的大环境下,不少朋友想吃快餐,昨晚连夜释放的数据,天一亮就从网上复制代码来分析自己的数据。

我们不要忘记单细胞数据科学也有三重境界:

  • ‘昨夜西风凋碧树,独上高楼,望尽天涯路’,此第一境也。
  • ‘衣带渐宽终不悔,为伊消得人憔悴’,此第二境也。
  • ‘众里寻他千百度,蓦然回首,那人正在灯火阑珊处’,此第三境也。”

【降维聚类,必知必会】很简单,能配置分析环境和复制代码就可以。
具备一定的生物学背景之后,【探索时贪婪,验证时谨慎】也不是难事。
但是真正走过四大过程组,谙熟两大知识领域,历尽三重境界方才修得单细胞数据科学家之名。

在节目的最后,作者本人在单细胞数据科学四大过程组两大知识领域与三重境界的基础上,寄语单细胞数据科学新人六大箴言:

  • 生信虽好,不要贪杯哦。编程语言先学一门,数据分析技术先学一种,不要并行开搞。
  • 相信我,你并不孤独。大部分你遇到的问题,别人都已经遇到过了,并已经解决了,又并写出来发在网上了。
  • 基础不牢,地动山摇。虽然单细胞数据下机之后,就处于不断贬值的过程中,但是如果贪快,不求甚解地分析数据,往往会带来无尽的返工。
  • 先练兵,再打仗。先学习如何分析数据,再利用学到的数据分析知识,去分析自己的的数据。而不是,数据下机之后,复制网上的代码去跑自己的数据。
  • 输出倒闭输入。教,才是最好的学习。学到的要交给别人,赚到的要花出去。
  • 读源码,解决实际问题。要勇于,善于阅读源码、原文档、原理。

加油,少年,开卷有益(juan,第一声)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342

推荐阅读更多精彩内容