14高通量测序-edgeR and DESeq2, part2-独立过滤

edgeR and DESeq2, part2-独立过滤

​ 过滤低read计数的基因,又名独立过滤(Independent Filtering)。

​ 每次我们做统计检验,都有可能得出错误的结论。简而言之,当我们说p值< 0.05显著,那么我们也可以说5%的情况下我们会报假阳性。

​ 当我们处理1或2个基因的差异表达时,这不是什么大问题,因为2次测试的5%是很小的,我们不太可能报告假阳性(false-positive)。然而,当我们检查基因组中的每一个基因(大约20000个),看看哪些基因在癌细胞中被调控失调时,5%*20000=1000 false positive。好消息是,FDR和Benjamini-Hochberg方法弥补了这个问题,但是还存在问题,我们先看一个例子:

FDR过滤

假设我们有两个独立的分布,红色曲线表示小鼠品系X的体重,蓝色曲线表示小鼠品系Y的体重。如果我们测量3只X品系的老鼠,那些值很大可能接近红色分布中间。如果我们测量3只Y品系的老鼠,那些值很大可能接近蓝色分布中间。对这些体重进行t检验将导致p值< 0.05,我们将正确地得出测量结果来自不同的分布。

image-20210106110808050.png

然而,我们时不时会得到重叠的值。在这种情况下,p值将会很大。这是一个“假阴性”。

image-20210106110848581.png

现在,让电脑从这些分布中抽取1000个样本(3个X,3个Y)做1000个t检验。画1000个p值的直方图,我们得到949个真阳性(p值<0.05),5个假阳性(p值>0.05),我们做的每一个测试都应该是"真阳性"并且p值< 0.05,这是因为每一个测试都使用两个不同分布的样本。

image-20210106111606005.png

让我们通过添加没有区别的test来使它更真实。我们将从已经使用两个不同的分布计算的1000个p值开始。然后再加上1000个来自相同分布的样本值,这些p值应该是> 0.05,但偶尔(5%的时间),我们会得到p值< 0.05。

image-20210106111840928.png

一共有993个p值小于0.05,949个真阳性来自第一组p值,44个假阳性来自第二组p值,因为仅仅只有4%的p值<0.05是假阳性,我们不需要使用FDR。但这只是因为我们编造了数据,如果是真的数据,我们不知道百分比,所以我们要用FDR。

image-20210106112434174.png

在使用FDR校正后,846个FDR调整后的p值仍然< 0.05。827个正阳性值剩下,为原949的89%,19个假阳性值剩下,占846个的2%。

image-20210106112928967.png

现在,让它更像RNA-Seq,p值的数目增加到6000。意味着,1000个样本来自不同的分布,5000个样本来自相同的分布,在大多数情况下来自相同样本应该会给出较大的p值。

image-20210106113246830.png

有1215个p值<0.05,949个p值是真阳性值,266个p值是假阳性值,22%的p值是假阳性值。

image-20210106113657633.png

FDR校正后,仅仅剩下256个p值<0.05,250个真阳性值剩下,占949的26%。6个假阳性值剩下,占256的2%。FDR在限制“显著结果”中的假阳性数量方面做得很好,但在保持真实阳性方面做得并不出色。

image-20210106114134742.png

现在让我们把样本量增加到11000,1000个样本来自不同的分布,10000个样本来自相同的分布,然后做11000次t检验,得到10000个p值。有1430个p值<0.05,949个p值是真阳性值,481个p值是假阳性值,34%的p值是假阳性值。FDR校正后,仅仅剩下56个p值<0.05,54个真阳性值剩下,占949的6%。2个假阳性值剩下,每当我们增加样本的检验数目时,通过FDR校正的真阳性的(p小于0.05)数目都会减少:

image-20210106115039256.png

下图中,绿线代表通过FDR校正后,真阳性p值<0.05的数量。橙线代表通过FDR校正后,假阳性p值<0.05的数量。这张图显示,尽管FDR可以控制假阳性的比率,随着检验数目的增多,真阳性的比例却在下降,这也表明Benjamini Hochberg方法还有改进的空间!

image-20210106115508646.png

edgeR和DESeq2过滤

​ 一般的想法是,具有超低read计数的基因不能提供有用信息,因此,它们可以从数据集中删除。换句话说,即使这些基因在生物学上是有趣的,如果在一种样本类型中只有1或2个转录本,而在另一种样本类型中只有3或4个转录本,就很难得到准确的read计数。

edgeR过滤

在做任何事情之前,edgeR建议去除所有的基因,除了那些在两个样品或更多样本中CPM>1的基因。CPM=Counts Per Million,它弥补了文库之间read深度的差异。

计算CPM:

计算公式:

image-20210106120653891.png
image-20210106120831864.png

现在我们有了所有样本中所有基因的CPM值,让我们去除所有的基因,除了那些在两个样品或更多样本中CPM>1的基因。

image-20210106121209831.png

edgR的方法很简单,但是你应该意识到测序深度会影响它。例如,如果一个样本有500万reads,CPM标准化因子=5000000/1000000=5,如果有5reads比对到一个基因,这个基因的CPM=5/5=1 CPM.如果一个样本有8000万reads,CPM标准化因子=80000000/1000000=80,此时1CPM=80reads。

image-20210106121555961.png

另一方面,有时你需要一个更大的CPM阈值,例如,你有50000reads比对到一个样本,标准化因子CPM=50000/1000000=0.05,如果你有一个read比对到一个基因上,它将变成1/0.05 = 20 CPM。即使这个基因是在生物学相关的水平上转录,因为你只能读到一个read,它仍然存在很大的噪音。

edgeR中CPM阈值

我们得到一个很好的阈值(cut off)?我们通过真实的数据集来说明

  • 我从一位同事那里得到一个数据集,每个样本平均有2200万reads。(4个“野生型”及4个“敲除型”样本)
  • 我在没有过滤单个基因的情况下对它进行了edgeR,这将生成原始的p值
  • 使用不同的CPM阈值过滤掉基因,然后矫正p值

我们使用不同的CPM阈值过滤掉基因,然后矫正p值,绘制成图,其中x轴为最小CPM阈值,y轴表示经过FDR校正后,p值<0.05的基因数量。当x=0时,没有过滤掉任何基因,当x=1(推荐的阈值)时,此时基因数量为3400,因为有很多reads,建议的阈值太严格了。使用较低的阈值可以鉴别出大约200个更重要的基因。

image-20210106124901166.png

edgeR的主旨是:要小心,在计算p值后,尝试不同的CPM阈值(cutoff)。

DESeq和edgeR的区别

  1. edgeR查看单个样本,并确保至少有2个CMP大于阈值。相比之下,DESeq2查看某个基因所有样本均一化reads的平均值,>阈值便保留。此时你可能会想:“酷!!我用DESeq2的方法,但是如果测量的基因有异常值呢?”
  • DESeq2有一个异常值值检测方法(我们将在另一个StatQuest中讨论),但它只在每个类别有两个以上的样本时才生效。

下图是分别使用DESeq和edgeR对同一批数据进行处理,它们都在同一区域达到峰值,这两种方法都会产生相似的阈值。现在让我们看看另一个不同之处。

2.另一个不同是改变了x轴,DESeq2绘制了分位数与显著基因数量的图,而不是最小CPM阈值。0%的基因低于阈值,20%的基因低于阈值,40%的基因低于阈值,分位数是有用的,因为正如我们所看到的,CPM依赖于测序深度,但无论如何,分位数总是分位数。无论库中有800万或8000万reads,10%的基因总是小于0.1分位数。

image-20210106131846588.png

我们可以选择分位数和最小CPM,

3.DESeq2对这些点拟合一条曲线,DESeq2然后在拟合曲线上找到最大位置。阈值是曲线上的最大位置,减去拟合曲线与原始值之间的标准差。换句话说,在峰值噪声范围内的第一个分位数是CPM阈值。如果没有原始值超过阈值,则不进行过滤。

image-20210106132824031.png

现在我们知道了edgeR和DESeq2是如何过滤基因的。

  • edgeR是保留那些在2个或2个以上样本中,CPM大于最小阈值的基因
  • DESeq2保留那些平均CPM大于最小CPM的基因,然后绘制显著基因与分位数的散点图,找到拟合曲线,再用最大值减去噪声,即是阈值
image-20210106133105442.png

建议

  • 如果使用edgeR,在计算p值后计算CPM阈值
  • 应用DEseq2的方法很容易找到最优CPM,以edgeR的基因选择标准
  • 如果你这样做了,请确保你引用了这两个出版物!
  • 如果你使用DESeq2,当每个分类只有2个样本时要小心异常值。


    image-20210106133521094.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容