Hemberg-lab单细胞转录组数据分析(一)

别人的电子书,你的电子书,都在bookdown一文中推荐过这一篇教程(https://hemberg-lab.github.io/scRNA.seq.course),从2016年一直更新到2018年,是入门单细胞分析的十分适合的文档。为了进一步促进学习,生信宝典申请并组织翻译这篇教程,将在公众号陆续推出。最后会有整合版以网页和PDF格式发布于易生信平台。

关于课程

采用高通量测序技术获取单细胞水平的全转录组数据又称scRNA-seq已应用越来越广泛。scRNA-seq的优势是其同时具有单细胞水平的分辨率和基因组范围的检测能力,可以解决其他方法如bulk RNA-seq或单细胞RT-qPCR解决不了的问题。然而,分析单细胞数据需要新的方法,以前用于bulk RNA-seq的一些计算方法的理论假设也不再适用。

在这个课程,我们讨论scRNA-seq可以解决的问题,以及可用的计算和统计学方法。原版课程是剑桥大学生物信息培训中心授课所用, 但文字版教材适用于任何对scRNA-seq分析感兴趣的人。课程每年两次,材料在开课前更新。

计算工具的数量增加很快,我们尽力更新至最新技术。这个课程的一个主要限制是我们倾向于使用在R里面实现并且速度相对快的工具 (其他语言实现的工具也通用,关键是理解原理)。另外,我们倾向于使用自己或朋友、同事开发的工具。(译者注:无可厚非,一是更了解,二是更容易获取帮助。我们也更倾向于使用自己的绘图工具ImageGP。)

视频

视频课录制于2017年11月,那时课程章节更少一些。视频在Youtube上,https://www.youtube.com/embed/56n77bpjiKo?list=PLEyKDyF1qdOYAhwU71qlrOXYsYHtyIu8n

GitHub

https://github.com/hemberg-lab/scRNA.seq.course

Docker 镜像 (RStudio)

课程可以通过安装了所有依赖包的RStudio的Docker镜像重现。

确保你的电脑已安装了Docker,如果没有,请参照Docker基础。运行下面命令启动Docker镜像:

docker run -d -p 8787:8787 quay.io/hemberg-group/scrna-seq-course-rstudio

这条命令会下载docker镜像 (看网速快慢,需要一些时间)。下载完成后,会启动Rstudio服务器版 (里面包含了依赖的程序包和数据)。

接下来就可以在基因组浏览器访问localhost:8787,使用用户名和密码rstudio:rstudio登录网页版Rstudio (R语言学习 - 入门环境Rstudio)。

更多关于运行RStudio docker镜像的选项见https://hub.docker.com/r/rocker/rstudio-stable/.

译者注:如果您参加过我们的易生信课程,这些操作都应该比较熟悉了。需要注意的是:1. 确认8787端口有无被占用,尤其是自己在服务器运行过Rstudio server时。2. 如果服务器有外网IP,可以在任何电脑的浏览器输入IP:8787访问。

译者注:如果不习惯Docker,或没有管理员权限,自己在Windows下安装依赖包也不费事。

手动安装

如果不使用Docker镜像,需要克隆或下载course GitHub repository并且在下载后的文件夹中启动R session。并且需要安装课程的docker文件: Dockerfile1 和 Dockerfile2中列出的所有包.

许可

所有课程材料遵循 GPL-3协议. 任何人都可以阅读这份材料来学习scRNA-seq数据分析. 如果应用于教学,除了提供合适的引用外,还请联系我们 (英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

课程基础

课程适用于有Linux/UnixR基础的朋友 (蓝字可点击)。

另外,我们也假设您对常规转录组的比对和分析,以及常用的计算工具比较熟悉 (39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版))。

否则,我们推荐先参加Introduction to RNA-seq and ChIP-seq data analysis 或 Analysis of high-throughput sequencing data with Bioconductor,然后再参加这个课程。

译者注:生物信息程序基础和常规转录组分析的中文版视频课程见:易生信原创课程 (如果是微信公众号,后台回复 培训获取)。

联系我们

如果您有任何 评论, 问题建议 请跟我们联系。(英文版:Vladimir Kiselev (vladimir.yu.kiselev@gmail.com),中文版 易生信 train@ehbio.com。)。

单细胞RNA-seq简介

混合RNA-seq

  • 2000年末的重大技术突破,取代微阵列表达芯片被广泛使用

  • 通过混合大量细胞获取足够RNA用于建库测序,来定量每个基因的平均表达水平

  • 用于比较转录组,例如比较不同物种的同一组织样本

  • 量化整体表达特征,如疾病研究中的表达模式

  • 研究异质系统方面还有力所不及之处,例如对早期发育的研究,复杂组织(大脑)的研究

  • 在基因表达随机性研究方面心有余而力不足

scRNA-seq

  • 是一项由汤富酬等人在2009年首次发表的技术。文章发表于Nature Method,测序了7个单细胞,两个卵裂球,两个野生型卵子,两个Dicer敲除的卵 子,一个Ago2敲除的卵子。

  • 这项技术在2013年被Nature评为年度技术,更简便的操作流程和较低的测序成本促成单细胞技术的广泛流行。2018年底,单细胞技术应用于胚胎发育追踪评为Science年度突破。

  • 检测每个基因在大量细胞中的表达水平分布

  • 可以研究细胞类型特异性转录调控的新型生物问题,例如细胞类型鉴定,细胞应答的异质性,细胞表达的随机性,细胞间基因调控网络的推断等

  • 研究中细胞数目范围从100个变到10^6个且每年递增。

  • 目前有许多不同的单细胞Protocol,例如 SMART-seq2 , CELL-seqDrop-seq

  • 还有商业平台,包括 Fluidigm C1, Wafergen ICELL8和the 10X Genomics Chromium。

  • Bulk RNA-seq技术中一些计算分析方法可应用于单细胞分析。

  • 多数情况下单细胞计算分析需要调整现有方法或者开发新方法

工作流程

image

总体而言,scRNA-seq的实验方案和bulk RNA-seq的相似。我们将在下一节一起讨论一些最通用的方法。

计算分析

本课程内容是scRNA-seq实验中得到的数据进行计算分析。总体流程如下图所示,前面三步(黄色)对于任何高通量测序数据是通用的,紧随其后的四步(橙色)是要将传统RNA-Seq分析中已有的方法和新开发的方法结合起来解决scRNA-seq的技术差异问题,最后的部分(蓝色)是使用专门为scRNA-seq开发的方法来进行生物分析解读。

image

scRNA-seq分析的综述有几篇,包括 Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3) 。

目前还有其他平台可以执行上述流程图中的一步或多步操作:

  • Falco:是一个单细胞RNA-seq的云处理平台,更像是一个流程部署和管理工具,一年多未更新了,一般也用不上。能部署的应该都有自己 的一套部署工具,初学者不需要学这么复杂的。有精力,可以学习下其部署理念应用于自己的流程。

  • SCONE(Single-Cell Overview of Normalized Expression):单细胞RNA-seq质量控制和标准化的R包 (一年多没更新了, Yosef研究 组2018年在Nature method发表一个单细胞分型的深度学习平台,scVI,效果不错,值得尝试)

image
  • Seurat :单细胞质控,分析和数据探索而设计的R包,可以完成获得定量数据后的几乎所有分析。不少文章的几个主图都是来自这个软件包 。这个软件包可以作为学习的入门,官网的教程示例写的很详细。
image
  • ASAP(Automated Single-cell Analysis Pipeline) :是一款单细胞分析的交互式网络平台。从基因表达矩阵开始到后期分析。功能相对比较全,定制化弱一些。学完这份教程,里面的功能都可以自己实现。
image

挑战

Bulk RNA-seq和scRNA-seq的主要差别是每个测序文库代表一个单细胞还是一群细胞。比较不同细胞(不同测序文库)的结果需要格外注意。文库之间差异的主要来源是:

  • 扩增效率和扩增偏好性(部分文库可扩增多达100万倍)

  • 基因 ‘dropouts’: 基因在一个细胞中呈现中等表达水平,但在另一个细胞中未检测到表达,这可能来源于scRNA-seq中RNA总量低导致的扩增建库丢失或RNA表达的随机性。

取自于单独一个细胞的低转录本总量是这两个文库差异的一个主要原因。提高转录本捕获效率和降低扩增偏好可以降低差异,是目前活跃的研究方向。从后续课程学习中也可以看 到,合适的标准化和校正方法也可以抵消一部分文库构建引入的噪音。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容