计算生物学课程复习之——芯片表达谱分析

上华中农业大学##谢为博##老师的计算生物学课程的个人复习总结

典型的芯片实验的全过程

提取RNA → 反转录 (→ 扩增) → 标记 → 杂交 → 扫描 → 获得原始数据

单色芯片的物理结构

  • 每个基因有代表性的11-20bp的探针对
  • 探针偏向于在基因的3'端
  • 探针包括和基因序列完全一样的探针(Perfect Match)和相比参考序- 列有变异的探针(MisMatch)

基因芯片的局限性和优点

  • 局限性
    只能检测已知或确定性的序列
    无法检测新发现的、未放置到芯片上的基因
    有部分探针的信号可能会受到非特异性杂交及个体序列差异的影响
  • 优点
    稳定可靠(RNA-seq测序量高对低表达基因的定量才可靠)
    积累了大量不可重新获取的数据

芯片数据前处理的步骤

数据过滤(Filtering)
背景纠正(Background correction)
均一化(Normalization)
总结(Summarization)
补缺失值(Imputation)
批次效应(Batch effects)

背景纠正

假设PM数据是背景和信号的组合
-PM =信号+背景
通过假设信号严格为正分布(positively distribution),校正后的信号也为正分布。
对每个阵列分别进行背景校正。
参考文章 https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.5001&rep=rep1&type=pdf

MA Plot

DNA微阵列数据(Microarray)通常在阵列内进行标准化,以控制染料偶联和杂交效率方面的系统性偏差,以及DNA探针和用于定位阵列的打印头中的其他技术偏差。通过最小化这些系统差异,可以发现真正的生物学差异。为了确定是否需要归一化,可以绘制芯片数据中信号值x和y的图,并查看直线的斜率是否在1左右。一种改进的方法(MA plot),一般先对它们进行log2处理,再进行Minus(log2{Y}-log2{x}=log2(y/x))和Add((log2{x}+log2{y})/2)做MA plot

MA plot计算横纵坐标计算

参考文章 https://www.jianshu.com/p/cdfac0bfb733

LOESS/LOWESS (locally weighted scatterplot smoothing)

在数据标准化中,有时候,偏差是一条没有明显参数形式的曲线(它不是直线,抛物线或正弦函数等),所以我们希望将曲线拟合到数据中。局部加权回归(LOESS)提供了一种方法。对于数据集中的每个点,定义的区域都被认为足够小,可以假定该区域中的一条直线近似于曲线,且一条直线具有加权最小二乘方。权重取决于到兴趣点的距离。在不同的强度水平上有效地应用不同的缩放因子,化曲为直。

参考文章 http://genomicsclass.github.io/book/pages/normalization.html

Quantile Normalization 标准化方法之一

  1. 根据列排序;
  2. 计算每行的平均数;
  3. 按照原来列的排序重新排列。


    Quantile Normalization

总结(Summarization)

Median Polish 中位数平滑法

作用:合并探针集中探针的强度值,以获得每个基因的单个强度值。


探针强度水平计算式
  • 步骤:
    每个芯片(chip)标准化到他的中位数
    每个基因标准化到他的中位数
    重复,迭代,直到行和列的中位数都为0,则medians converged.
    最多迭代五次,以防止无限循环
  • 举个栗子:
    初始矩阵A
    chip-gene值的矩阵

    First,每行求中位数,用每个值减去该行的中位数,得到一个新的矩阵A1
    第一步,减去行中位数

    Second, 对新得到的矩阵A1,求每列的中位数,用每个值减去该列的中位数,得到一个新的矩阵A2
    第二步,减去列中位数

    Third,再依次重复第一步和第二步,直到行与列的中位数都是0。最多迭代五轮,防止无限循环。得到矩阵An
    第三步,迭代
迭代后的矩阵An

Fourth, 用初始矩阵A中的每个值减去迭代后矩阵An的每个值(即矩阵相减), 得到矩阵B, 之后,每行求平均值。

第四步,A-An=B

Tukey Biweight Estimate(MAS5 (Affymetrix MicroArray Suite)用到的方法)

通过比较PM探针和MM探针,每张芯片单独获取值


Tukey Biweight方法获取平均值

CTj是从MMj得出的量,永远不大于PMj。

根据距中值的距离对每个探针强度进行加权。
平均值在全局稳定(不受任何假设的微小变化影响)。
Tukey Biweight中,远离估计中心的数据权重降低,如此用可靠的统计数据抵抗异常值。

  • 优势
    可用于单芯片(即使是很好的重复)
    给出表达数据的p值
  • 劣势
    算法中有很多不确定性因素
    根据文档不能完全复制(现在可资源可用)
  • 其他
    Affy芯片最常用的加工方法
    高度依赖于不匹配探针(MP)

dChip

多个芯片同时获取值
此方法构建出的基因共表达网络假阳性更低


Method Comparision of Spike-in, 感觉spiked genes就是差异显著的基因

差异表达基因鉴定方法

Naive method: 倍数

即两者均值比,不能得到可信的差异表达基因

T-test

  • 正态分布
  • QQ Plot (理论值和实际值的关系图)
    参考文章 https://www.jianshu.com/p/c46bd6d8b86d
  • 如果是正态分布:用T 检验
  • 如果不是正态分布:用非参数检验

Wilcoxon Rank Sum Test

  • 秩和检验
    如果两个样本来自两个独立的但非正态或形态不清的两总体,要检验两样本之间的差异是否显著,不应运用参数检验中的T检验,而需采用秩和检验。
    用秩和检验可以检验两个总体的分布函数是否相等的问题。
  • 步骤
    第一步:将两个样本数据混合并由小到大进行等级排列(最小的数据秩次编为1,最大的数据秩次编为n1 + n2)。
    第二步:把容量较小的样本中各数据的等级相加,即秩和,用T表示。
    第三步:把T值与秩和检验表中某α显著性水平(一般为0.05)下的临界值相比较。用数值 T,n1, n2, α 查秩和检验表(U Table), 得到T的上下限值T1和T2。如果T1 < T < T2,则两样本差异不显著;如果T<>T1或T>=T2, 则表明两样本差异显著。
    参考文章 https://www.cnblogs.com/emanlee/archive/2011/12/17/2290978.html
  • 局限性
    没有参数,当样本数少的时候不具说服力

Modified t-test

当样本量小时,解决此问题的方法有SAM,用的是多重T检验

SAM

LIMMA

Permutation

  • bootstrap 有放回式取样 用来估计变异,均值与标准差未知,在偏倚估计、区间估计、等效性检验中有应用。
  • permutation 无放回,对照与处理两个数据放在一起,打乱多次,求t值,用于两组t检验,E.X t检验,t重新求最大,重复上千次
    可用于差异基因显著性分析,去除差异表达分析假阳性。
    应用于传统的统计检验:相关分析、t检验、方差分析

多重假设检验

Family-wise error rate (FWER)

Bonferroni校正:为了将测试m个假设的家庭错误率控制在α水平,我们需要将每个测试的错误拒绝率控制在α/ m
如果α为0.05,则对于20K基因预测,p值截止值为0.05 / 20K = 2.5E-6
差异表达基因选择过于保守

False discovery rate (FDR)

FDR:假发现率,更客观
FWER和FDR表示一种概念或一种方法,FWER定义为多重假设检验中发现至少一个I类错误的概率,FDR定义为多重假设检验中错误发现占所有发现的比例。另外,对应地,还存在FWER校正方法和FDR校正方法(也称为控制方法)。两类校正方法都是用来控制多重假设检验中犯I类错误的概率,使其低于显著性水平 α \alpha α。FWER校正有多种实现,其中最经典的是Bonferroni correction;FDR校正也有多种实现,其中最经典的就是Benjamini–Hochberg procedure。

FWER和FDR校正都可以使多重假设检验整体犯I类错误的概率低于预先设定的显著性水平 α \alpha α。FWER显得较为保守,它主要是依靠减少假阳性的个数,同时也会减少TDR(true discovery rate)。而FDR方法是一种更加新颖靠谱的方法,它会对每个测试用例使用校正后的 p p p值( q q q值),达到了更好的效果:在检验出尽可能多的阳性结果的同时将错误发现率控制在可以接受的范围。

False positive rate

FPR:假阳性率,与样本关系大

Gene Ontology

基因本体论
一系列标准的分类,层级结构,方便功能分类—— 分子功能,生物过程,细胞组分

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342