2020 scATAC-seq Harward Liu

了解scATAC-seq 背景知识(youtube Shirley)

1.2020 STAT115 Lect16.1 Intro to Single-Cell ATAC-seq

image.png
image.png
  • 我们通过Tn5 酶进行反应,切割开放染色质区域,同时我们选择相对短的片段进行建库测序。当我们比对到基因组就会看到peak 峰,标示出染色质所有的开放染色质区域.也是所有转录因子结合区域
  • atac-seq,相比其他技术需要更少的起始细胞量,大约几千个有时候几百个细胞手动了解scATAC-seq技术,人们可以用于研究发育组织及其癌症组织,这些情况有时候用ChIP-seq 或者Dnase-seq没法研究.
image.png
  • 近些年技术进一步发展. 单细胞ATAC-seq实验方法已经开发出来了. 斯坦福大学研究团队与10x genomic 进行合作,拖动scATAC-seq 商业化.

  • 10x 商业平台原理,首先纸杯GEL breds ,获取单细胞悬液,或者单个的细胞核,并用Tn5 进行酶切. 进入机器形成1个gel beads 1个单细胞液滴. 每一个细胞拥有一个标签.同时进行短的片段进行PCR扩增反应. 最后去除油滴,所有的序列混合在一起,进行上机测序,用barcode 来区分reads来自哪个细胞.

    提问:在上机之前,就进行了Tn5 反应,将adapter 插入两端.

image.png
  • 刚刚我们讲述Droplet-based 系统的单细胞技术.其他技术包括Plate 或者array : 大约有384 个well.每一个细胞有唯一的标签. 另一个技术是split-pool 和单细胞RNA-seq 技术类似,进行两次的标签化组合,进行标示所有的细胞. 但是也存在问题,多次的操作细胞可能会丢失,也逐渐商业化目前最主流是x genomic ,得到较好的质量
image.png
  • 更多人希望得到scRNA-seq+ scATAC-seq 数据.目前也存在困难.可以先对细胞分成两管,分别进行scRNA_seq和scATAC-seq. 虽然来自同一个组织,但是不是同一个细胞. 所有scRNA-seq 和scATAC-seq 的barcode 不是一对一匹配.

  • 10x 公司正在为之努力,单细胞细胞测量RNA-seq和ATC-seq,使得两者的barcode 有一个一一对应的关系.

提问:短的片段更容易得到扩增.




2.STATi15 Lect16.2 Preprocessing and QC scATAC-seq

image.png
  • Cell Ranger 是10 x genomic 开放的工具包. 它有自己的比对方法,当然目前也有很好的其他工具,比如RNA_seq z中STAR, 可以使用STAR solo (STAR 基础上进行提升) 比对速度提升10倍.

  • ATAC-seq 可以使用BWA进行比对. 最近有团队开发了Minimap2 ,和cellRange 快15 倍. 对于CHIP-seq 来说,不太关注高度重复的区域,当你发现这个区域没有read,不要担心,我们忽略了它.

  • 10x 公司知道他们的barcode 数目及其信息,我们需要保证传染性结果的barcode没有测错. 如何你发现你的barcode 序列和所有的都不一样,但是和有一个很相近,你可以将这些reads 分配给这个细胞.所有这是一个标准的预处理过程.

image.png
  • 人们会将所有的reads 进行合并,用macs2 进行call peak. 结果和bulk 几乎一样. 图C 中 每一个细胞都是一行,每一个位置有1 or 2 reads.
image.png
  • 图d, 两类细胞GM12878(人类),A20(小鼠)将不同重复进行normalize ,比较两者相关系数. 每一个点就是peak.

  • 图e 左,将两个物种read 结果混合起来,用来检测一个barcode 多少比例存在多个细胞,我们可以看到有几个点在对称轴上.

  • 图e 右,显示细胞浓度与一个barcode 对应多个细胞的比例,可以看到细胞浓度越高,这种情况越明显.

image.png
  • 启动子区域很大程度都是开放的,所有查看多少比例比对到启动子可以反映出实验效果.

    也可以检测多少reads 比对到线粒体,当然比例很高不太好. 图b 左边两图 ,横坐标是细胞测到的reads 数目,总坐标是多少比例比对到TSS区域.(1kb 区域).

  • 图b 右图展示类似效果,x 为通过标准的reads,y 轴是Frip比例. 也可以设定阈值进行过滤细胞

    我们通过Frip 0.25 / reads count> 10^3 进行过滤,将剩下的蓝色细胞进行macs2 call peak 应该更好.

image.png
  • 当过滤掉大部分低质量细胞,进行macs2 callpeak. 我们可以通过统计每个peak 区域的reads 数目得到peak-count matrix, 非常稀疏.大多是count 情况 都是0,1 偶尔出现2 ,这和单细胞RNA-seq不太一样。 有时候我们可以将2转换成1 ,因为2 非常少,转换成binary matrix.

提问:为什么count 数目只能是0,1,2 ?
总体read 有成千上万个reads,平均到每一个细胞,只有几千个reads .DNA序列大多数只有2倍拷贝, 对于癌症细胞来说,可能存在很少的3,4 拷贝。




3.2020 STAT115 Lect16.3 Analysis of scATAC-seq

当我们得到peak_by_cell matrix. 需要进行下游分析.


2020年5月25日17:17:31
  • 我们可以使用PCA进行降维, 或者新的机器学习算法,LSL可能效果比PCA好一些. 降维只有可以计算两个细胞之间的距离.(LSI 思路:TF-IDF -->term-document-->SVD-->demension accor)
  • 降维后坐标可以直接用scRNA_seq的方法,进行聚类(cluster--Seurat V3)
  • T-SNE/uMAP 可视化
  • 我们可以想象原始矩阵是非常稀疏,成千上万行peak 区域. 只有几千行有数据(0 或者1 ) .
image.png
  • 我们将细胞进行聚类,可以将每一类细胞重新进行call peaks.
  • 比如cluster16 ,是一个小的cluster, 可能cluster16 部分的peak 由于agg atac-seq 时候reads 很少,无法进行检测到。当我们单独进行cluster16 macs2 call peak 更加容易发现它.





下面两个slide 将从motif/TF ChIP-seq 数据检测那个TF明显富集某个细胞.

Annotation Relevant TFs with Motif

接下来,我们就需要进行差异peak. (tips: 需要将细胞reads 进行归一化,10k/cell) 再进行M-W test(几万次)

  • scRNA-seq 方法,M-W test /Wilcoxon rank-sum等等.
  • 但是scATAC-seq 大多数情况都是0,1. 需要将每一列(细胞) 进行normalize . 放缩到10k (reads/cell) . 我们前面已经将reads 数目很少的细胞进行了过滤。 归一化后,可以进行比较每一行是否是差异基因.
  • Presto : 是Wilcoxon test 的改进,但是速度快很多.

scRNA-seq 判断不同cluster每一个gene 显著性. scATAC-seq判断不同的cluster每一个peak 显著性.一般需要6小时的,Presto 只需要15 秒就完成.

image.png
  • ChromVar 是很早一个算法,哪些TF特异富集到某个cell/cluster。
    tips: 类似计算GO富集一样,进行超几何计算,看这个细胞的peak里面对于某个TF的富集情况.ChromVar 对所有的TF进行类似操作
    比如CEBPA 在某些cluster 检测到很多位点,在其他一些cluster 很少检测到. 对每一个细胞的开放区域进行TF (CEBPA)富集分析,就可以得到如图所示结果. 一样的,可以看ZEB1 转录因子在每一个细胞中富集情况.

当然在人类基因组中通过motif 预测TF结合还存在很多影响因素. 所有通过证实的转录因子数据效果更好.

image.png

用TF ChIP-seq peak 和单细胞peak区域进行overlap 来衡量

  • 我们可以利用另一个项目,cistrome数据. 收集了60000 ChIP-seq(human/mouse) .
    1.假如研究某一个基因,检测哪一个转录因子调控这个基因. 结果会给出哪些TF 更可能结合在这里.
    2.想研究一个区间哪些转录因子结合(比如说SNP发生位点)
    3.对很多区间,用已有的ChIP-seq 数据,检测哪些转录因子ChIP-seq 更加和这些区域重叠。比之前直接用motif 进行富集更加有效.
image.png
  • 可以用差异peak 区域进行富集,看哪些TF-ChIP-seq更加重叠. 一个TF有很多数据(比如不同组织的ChIP-seq),图里面出现很多颜色相同的点.按照每一个TF最佳重叠得分进行排序. 所有看到PLAS1 中有一个ChIP-seq 数据和输入区间有很高的的重叠.
  • 同时同一个转录因子家族,可能结合区域很相近,比如FOXA1 ,FOXA2 .




4.2020 STAT115 Lect16.4 Integrating scATAC-seq with scRNA-seq

image.png

几十万行的peak-cell matrix 转换成2万行 gene-cell matrix;MAESTRO采用基于距离的算法对peak 加上权重,越靠近乘以1,越远(100kb)乘以很小的值 来表示此基因是否表达

  • 一个基因附近可能有很多atac-seq peak ,每一个peak计算距离TSS 距离,赋予不同的权重 进而转换成gene-cell-countmatrix ,比如MAESTRO (未发表)
image.png
  • 将peak-cell 矩阵转换成gene-cell 表达矩阵后,类似于scRNA-seq结果. 相当于将一个细胞,分别进行了scRNA-seq,scATAC-seq.
    左图两种颜色分别表示scRNA-seq,scATAC-seq.

image.png

这部分不太懂,大概说scATAC-seq 转换成的gene_cell_matrix和scRNA-seq matrix 相关系数类似. 不像scRNA-seq 重复之间那么高。

image.png

image.png

岭回归和lasso回归 可以进行特征选择,我们在生物统计学课程了解到
可以获得几千个差异基因,需要用lasso进一步对gene 添加权重

  • 通过LASSO选择这些差异基因,和那些信号关系更大。比如已经发表的H3K27ac peak 或者DNase peak .
image.png
image.png

反思:

水平有限,好多slide 没听懂讲什么内容 φ(* ̄0 ̄)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,670评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,928评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,926评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,238评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,112评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,138评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,545评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,232评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,496评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,596评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,369评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,226评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,600评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,906评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,185评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,516评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,721评论 2 335

推荐阅读更多精彩内容

  • 作者 | Arno审稿 | 童蒙编辑 | amethyst 上一期我们介绍了ATAC-seq相关的背景知识。ATA...
    生信阿拉丁阅读 16,823评论 5 39
  • 背景: 染色质和染色体的结构和功能 每一条染色单体由单个线性DNA分子组成。细胞核中的DNA是经过高度有序的包装,...
    xuzhougeng阅读 35,523评论 10 93
  • 作者 | Arno审稿 | 童蒙编辑 | amethyst ATAC-seq技术由于其要求细胞量少,实验简单、快速...
    生信阿拉丁阅读 4,307评论 0 11
  • 知识的学习没有一蹴而就,没有捷近,扎实的学习是唯一的捷近。 一篇RNA-seq分析流程的综述,全面而详细!深度好文...
    dandanwu90阅读 47,459评论 5 152
  • 大年初四,已经在家连续蜗居了四天。 忍受不了,还是戴上口罩来到了体育馆跑步。 昨天跑步,保安开始测体温,不戴口罩的...
    夏日不夏阅读 236评论 2 2