Transcript quantification/differential exp

本文为学习RNA-seq中** Transcript quantification / Differential gene expression analysis **过程记录。

Transcript quantification

转录本的定量是RNA-seq的基础,其接受的输入是 raw counts of mapped reads,输出是 the number of reads that map to each transcript
这个步骤的主要困难是同一个基因的不同转录本之间的差别很小,他们之间的很多外显子都是共用的,因此,同一个read并不能完全确定是来自于哪一个转录本。
解决这个问题的主流算法是Expectation Maximization。Top hat 和RSEM的核心算法都是最大似然。这里以RSEM为例,RSEM并不是只用到了最大似然,而是也用到了先验概率

The primary parameters of the model are given by the vector θ, which represents the prior probabilities of a fragment being derived from each transcript.

根据文章的说法,输入模型的参数是每一个read出自transcript的先验概率。

The model consists of N sets of random variables, one per sequenced RNA-Seq fragment. For fragment n, its parent transcript, length, start position, and orientation are represented by the latent variables G n , F n , S n and O n respectively.

模型中用到的变量分为观测变量和隐变量。通过对隐变量的迭代,算出可以使出现观测变量可能性达到最大的组合。

在获得raw count之后,还不能直接用来差异表达,因为这些值之间差别的原因不仅有各个基因之间表达量的差异,还会受到转录本长度,测序深度,测序系统偏差等的影响。
这个问题的解决方法是normalize标准化。目前有几种常用的标准化方法:FPKM,RPKM,TPM,TMM等等。其中前两个只能用于样品内部表达量的比较,后两种可以用来进行样品间的比较。
通过一系列的方法得到每个transcript的count之后,可以进行下一步的分析。

Differential gene expression analysis

这一过程的任务是找出在样品间,由于受到控制变量的影响而出现了差异表达的基因。接受的输入是比对到每个transcript的read count。
为什么不能直接用read count的比例来作为差异表达的依据呢?这是因为RNA-seq相当于一个抽样的过程,我们得到的只是总体的样本,我们要做的是根据这个样本对总体的情况进行推断。这个总体值得就是某个基因的表达情况,在目前主流的假设条件下,这个总体服从的是泊松分布或是负二项分布,我们的任务就是推断这个总体的均值,方差等等,并根据这些信息检测两个总体是否有差异。
将总体假设为泊松分布或是负二项分布的理由是:从一个样品池中随机抽取一个read属于某一个transcript的概率很小,且每次抽取之间相互不影响。负二项分布可以看作是泊松分布的扩展版,它增添了一个新的参数,disperison,这个参数可以描述总体的离散情况。
利用这些模型和假设,可以在每个transcript的read count和表达比例之间建立联系,并求解出abundance。(线性模型)
另外,有些方法没有使用离散分布的模型,而是直接对read count执行一些标准化的处理,变化后作为abundance使用。
还有些方法使用的是non-parametric approaches。这些检验方法不要求或者不假定总体是一个什么样的分布,但同时也会因此而损失一些信息。
鉴于目前存在的很多种不同的方法,靠谱的做法是使用不同的方法,并依据不同的实验需求使用这些结果。比如,保守的方法:可以区并集,激进的方法:可以取交集等等。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容