RNA-seq中的基因表达量计算和表达差异分析

原文链接：RNA-seq中的基因表达量计算和表达差异分析-生物知识学习 (biotechknowledgestudy.com)

差异分析的步骤：

1）比对；

2） read count计算；

3） read count的归一化；

4）差异表达分析；

背景知识：

1）比对：

普通比对： BWA，SOAP

开大GAP比对：Tophat（Bowtie2）；

2） Read count(多重比对的问题）：

丢弃

平均分配

利用Unique region估计并重新分配

表达量计算的本质

目标基因表达量相对参照系表达量的数值。

参照的本质：

（ 1）假设样本间参照的信号值应该是相同的；

（ 2）将样本间参照的观测值校正到同一水平；

（ 3）从参照的数值，校正并推算出其他观测量的值。

例如：Qpcr:目标基因表达量（循环数）相对看家基因表达量（循环数）；RNA-seq:目标基因的表达量（测序reads数），相对样本RNA总表达量（总测序量的reads数），这是最常用的标准。

归一化的原因及处理原则：

1）基因长度

2）测序量

3）样本特异性（例如，细胞mRNA总量，污染等）前两者使用普通的RPKM算法就可以良好解决，关键是第三个问题，涉及到不同的算法处理。

RNA-Seq归一化算法的意义：

基因表达量归一化：在高通量测序过程中，样品间在数据总量、基因长度、基因数目、高表达基因分布甚至同一个基因的不同转录本分布上存在差别。因此不能直接比较表达量，必须将数据进行归一化处理。

RNA-seq差异表达分析的一般原则

1）不同样品的基因总表达量相似

2）上调差异表达与下调差异表达整体数量相似（上下调差异平衡）

3）在两组样品中不受处理效应影响的基因，表达量应该是相近的（差异不显著）。

4）看家基因可作为表达量评价依据（待定）

不同的算法比较：

以什么数值来衡量表达量：RPKM、FPKM、TPM

以什么作为参照标准：TMM（edgeR软件）、De seq矫正

RPKM：是Reads Per Kilobase per Million mapped reads的缩写，代表每百万reads中来自于某基因每千碱基长度的reads数。

本质：1）以reads数为计算单位；

2）对基因长度（基因间的比较）和总数据量（样本间的比较）做矫正；

RPKM的弊端

1）由于可变剪切，同一基因有效转录区域长度未必相同（这个一般情况下可以不考虑，了解一下：Cufflinks软件考虑了这个问题）优化策略：外显子或转录本水平的表达量分析。

2）使用reads数计算基因表达量有轻微误差（这里暂不展开，主要了解一下定义）优化策略：FPKM或 TPM

3） mRNA的总量未必相等。

RPKM的优化：FPKm

F = Fragment，即测序片段数量。这些片段都是从完整的cDNA打碎而来的；

本质：以文库中的片段数量为计算单位在Paired-end测序中，一个fragment就是两条PE reads构成的片段。由于是PE比对，理论上比SE比对更可靠。

RPKM的优化：TPM

T = Transcripts

本质：以转录本的条数为计算单位。使用转录本的条数（或者说：转录本的测序深度），代替reads数，在一定条件下定量更准，尤其样本间表达基因总数差异很大的时候（例如，对照样本有1万个基因表达，另外处理组仅有4000个基因表达）。

mRNA总量未必相等

mRNA总量不等——细胞本身不同

例如：活跃组织vs休眠的组织；癌细胞vs正常细胞

mRNA总量不等——污染

例如：核糖体污染外源RNA污染

解决方法——不同算法比较

其中归一化算法介绍：

1）Total Count（TC）：总reads数矫正

2）Upper Quartile（UQ）：上四分之一分位数（总reads）

矫正

3）Median（Med）；中位数（总reads数）矫正

4）Quantile (Q)：基因芯片软件limma中的校正算法；

5）RPKM：总reads数，但引入了基因长度

6）几何平均数：Deseq软件中的算法；

7）TMM：edgeR软件中的算法；

8）RPKM

逻辑1：不同位置数值的稳定性不同

四分位数quartile:将数据按从小到大排列，并分成四等分，这样得到3个分割点，第一个分割点叫做lowerquartile，第二个叫Media，第三个叫Upper quartile

很显然，极大值具有极大不稳定性，而且可能会显著影

响总体之和（假设，我们之中有个马云，我们的总收入

有什么变化？）

所以，Upper quartile和Median的数值，比总表达量之

和更加稳定，更适合作为参照。

逻辑2：表达量居中的基因的表达量值，其数值应该是相似的。

DESeq与edgeR，默认情况下都使用这一的逻辑校正。（DESeq and edgeR Bioconductor packages）

Deseq：异常高表达的基因，会显著影响细胞中的总mRNA的数量。类似的，如果样本中受到不同程度的外源RNA，如病毒、真菌等的污染，也会显著影响样本总mRNA数，导致RPMK值的误差。对于这样的问题，Deseq尝试对数据进行矫正（矫正因子），使表达量处于中间位置的基因表达量应该是基本相同的（即使用表达量处于中间的基因表达量值作为参照，而减少高表达基因的作用）。

Deseq：校正因子=样本表达中位数/所有样本表达量中位数：回答了一个关键的问题：Deseq不同差异比较组间，计算得到的表达量值不同。因

为样本在变化，“所有样本表达量的中位数”也在变动。RPKM：总表达量为参照

Deseq：中位数为参照

TMM（edgeR）：与Deseq类似，在去除高表达基因和差异最大的基因后，TMM也是要找到一个加权系数，使剩余的基因在被矫正后差异倍数可能小。TMM的加权系数是基于两两样本比较后推算获得的（也就是两组样本的比较，将产生与这次比较相关的加权系数）。然后将所有基因除以这个加权系数，从而保证大部分表达量居中的基因表达量最相似。

不同RNA-seq表达量归一化算法的区别

Deseq类的校正算法：理论上更加稳定；但不同批次的比较会得到不同的表达量值，不利于进行多处理组/批次数据的统一分析（例如，趋势分析、共表达分析）校正会掩盖一些问题（例如：样本污染）

RPKM类的算法：容易受异常高表达基因、外源污染等的干扰；但也更容易从结果的异常中，发现潜在问题；得到的表达量值是恒定的，多处理组/批次的数据可以合并分析。折中的方法：使用RPKM类的算法，但需要人工检查数据是否

异常。备注： Deseq软件也可以关闭校正的功能。

实际经验总结

总之：从多方面考虑，RPKM类算法，如果合理使用，依然是最优的。具体问题具体分析：在遇到问题的时候，找到问题的来源，从而给出解决方案（没有完美的流程，只有最佳解决方案）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

RNA-seq中的基因表达量计算和表达差异分析

RNA-seq中的基因表达量计算和表达差异分析

RPKM的弊端

RPKM的优化：TPM

推荐阅读更多精彩内容