上华中农业大学##谢为博##老师的计算生物学课程的个人复习总结
典型的芯片实验的全过程
提取RNA → 反转录 (→ 扩增) → 标记 → 杂交 → 扫描 → 获得原始数据
单色芯片的物理结构
- 每个基因有代表性的11-20bp的探针对
- 探针偏向于在基因的3'端
- 探针包括和基因序列完全一样的探针(Perfect Match)和相比参考序- 列有变异的探针(MisMatch)
基因芯片的局限性和优点
- 局限性
只能检测已知或确定性的序列
无法检测新发现的、未放置到芯片上的基因
有部分探针的信号可能会受到非特异性杂交及个体序列差异的影响 - 优点
稳定可靠(RNA-seq测序量高对低表达基因的定量才可靠)
积累了大量不可重新获取的数据
芯片数据前处理的步骤
数据过滤(Filtering)
背景纠正(Background correction)
均一化(Normalization)
总结(Summarization)
补缺失值(Imputation)
批次效应(Batch effects)
背景纠正
假设PM数据是背景和信号的组合
-PM =信号+背景
通过假设信号严格为正分布(positively distribution),校正后的信号也为正分布。
对每个阵列分别进行背景校正。
参考文章 https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.5001&rep=rep1&type=pdf
MA Plot
DNA微阵列数据(Microarray)通常在阵列内进行标准化,以控制染料偶联和杂交效率方面的系统性偏差,以及DNA探针和用于定位阵列的打印头中的其他技术偏差。通过最小化这些系统差异,可以发现真正的生物学差异。为了确定是否需要归一化,可以绘制芯片数据中信号值x和y的图,并查看直线的斜率是否在1左右。一种改进的方法(MA plot),一般先对它们进行log2处理,再进行Minus(log2{Y}-log2{x}=log2(y/x))和Add((log2{x}+log2{y})/2)做MA plot
参考文章 https://www.jianshu.com/p/cdfac0bfb733
LOESS/LOWESS (locally weighted scatterplot smoothing)
在数据标准化中,有时候,偏差是一条没有明显参数形式的曲线(它不是直线,抛物线或正弦函数等),所以我们希望将曲线拟合到数据中。局部加权回归(LOESS)提供了一种方法。对于数据集中的每个点,定义的区域都被认为足够小,可以假定该区域中的一条直线近似于曲线,且一条直线具有加权最小二乘方。权重取决于到兴趣点的距离。在不同的强度水平上有效地应用不同的缩放因子,化曲为直。
参考文章 http://genomicsclass.github.io/book/pages/normalization.html
Quantile Normalization 标准化方法之一
- 根据列排序;
- 计算每行的平均数;
-
按照原来列的排序重新排列。
总结(Summarization)
Median Polish 中位数平滑法
作用:合并探针集中探针的强度值,以获得每个基因的单个强度值。
- 步骤:
每个芯片(chip)标准化到他的中位数
每个基因标准化到他的中位数
重复,迭代,直到行和列的中位数都为0,则medians converged.
最多迭代五次,以防止无限循环 - 举个栗子:
初始矩阵A
First,每行求中位数,用每个值减去该行的中位数,得到一个新的矩阵A1
Second, 对新得到的矩阵A1,求每列的中位数,用每个值减去该列的中位数,得到一个新的矩阵A2
Third,再依次重复第一步和第二步,直到行与列的中位数都是0。最多迭代五轮,防止无限循环。得到矩阵An
Fourth, 用初始矩阵A中的每个值减去迭代后矩阵An的每个值(即矩阵相减), 得到矩阵B, 之后,每行求平均值。
Tukey Biweight Estimate(MAS5 (Affymetrix MicroArray Suite)用到的方法)
通过比较PM探针和MM探针,每张芯片单独获取值
CTj是从MMj得出的量,永远不大于PMj。
根据距中值的距离对每个探针强度进行加权。
平均值在全局稳定(不受任何假设的微小变化影响)。
Tukey Biweight中,远离估计中心的数据权重降低,如此用可靠的统计数据抵抗异常值。
- 优势
可用于单芯片(即使是很好的重复)
给出表达数据的p值 - 劣势
算法中有很多不确定性因素
根据文档不能完全复制(现在可资源可用) - 其他
Affy芯片最常用的加工方法
高度依赖于不匹配探针(MP)
dChip
多个芯片同时获取值
此方法构建出的基因共表达网络假阳性更低
差异表达基因鉴定方法
Naive method: 倍数
即两者均值比,不能得到可信的差异表达基因
T-test
- 正态分布
- QQ Plot (理论值和实际值的关系图)
参考文章 https://www.jianshu.com/p/c46bd6d8b86d - 如果是正态分布:用T 检验
- 如果不是正态分布:用非参数检验
Wilcoxon Rank Sum Test
- 秩和检验
如果两个样本来自两个独立的但非正态或形态不清的两总体,要检验两样本之间的差异是否显著,不应运用参数检验中的T检验,而需采用秩和检验。
用秩和检验可以检验两个总体的分布函数是否相等的问题。 - 步骤
第一步:将两个样本数据混合并由小到大进行等级排列(最小的数据秩次编为1,最大的数据秩次编为n1 + n2)。
第二步:把容量较小的样本中各数据的等级相加,即秩和,用T表示。
第三步:把T值与秩和检验表中某α显著性水平(一般为0.05)下的临界值相比较。用数值 T,n1, n2, α 查秩和检验表(U Table), 得到T的上下限值T1和T2。如果T1 < T < T2,则两样本差异不显著;如果T<>T1或T>=T2, 则表明两样本差异显著。
参考文章 https://www.cnblogs.com/emanlee/archive/2011/12/17/2290978.html - 局限性
没有参数,当样本数少的时候不具说服力
Modified t-test
当样本量小时,解决此问题的方法有SAM,用的是多重T检验
SAM
LIMMA
Permutation
- bootstrap 有放回式取样 用来估计变异,均值与标准差未知,在偏倚估计、区间估计、等效性检验中有应用。
- permutation 无放回,对照与处理两个数据放在一起,打乱多次,求t值,用于两组t检验,E.X t检验,t重新求最大,重复上千次
可用于差异基因显著性分析,去除差异表达分析假阳性。
应用于传统的统计检验:相关分析、t检验、方差分析
多重假设检验
Family-wise error rate (FWER)
Bonferroni校正:为了将测试m个假设的家庭错误率控制在α水平,我们需要将每个测试的错误拒绝率控制在α/ m
如果α为0.05,则对于20K基因预测,p值截止值为0.05 / 20K = 2.5E-6
差异表达基因选择过于保守
False discovery rate (FDR)
FDR:假发现率,更客观
FWER和FDR表示一种概念或一种方法,FWER定义为多重假设检验中发现至少一个I类错误的概率,FDR定义为多重假设检验中错误发现占所有发现的比例。另外,对应地,还存在FWER校正方法和FDR校正方法(也称为控制方法)。两类校正方法都是用来控制多重假设检验中犯I类错误的概率,使其低于显著性水平 α \alpha α。FWER校正有多种实现,其中最经典的是Bonferroni correction;FDR校正也有多种实现,其中最经典的就是Benjamini–Hochberg procedure。
FWER和FDR校正都可以使多重假设检验整体犯I类错误的概率低于预先设定的显著性水平 α \alpha α。FWER显得较为保守,它主要是依靠减少假阳性的个数,同时也会减少TDR(true discovery rate)。而FDR方法是一种更加新颖靠谱的方法,它会对每个测试用例使用校正后的 p p p值( q q q值),达到了更好的效果:在检验出尽可能多的阳性结果的同时将错误发现率控制在可以接受的范围。
False positive rate
FPR:假阳性率,与样本关系大
Gene Ontology
基因本体论
一系列标准的分类,层级结构,方便功能分类—— 分子功能,生物过程,细胞组分