差异基因的筛选方法
统计检验得到p值
- 比方说你想研究什么基因,可以在全部都是肿瘤组织里面以某个基因分类,分成高表达和低表达的两组,两组数据进行不配对t检验或者anova方差分析
- 也可以根据肿瘤和正常样本进行分组
对于基因芯片的数据而言,样本服从正态分布,所以用t-test(双处理)或anova分析(多处理以上)。
二代测序RNA-Seq它的抽样过程是离散的,结果是count,服从泊松分布,样本间的差异是服从负二向分布。
方差分析(ANOVA)和线性回归分析(regression)都是同一时期发展的两套紧密相连的理论。方差分析考量的是离散型自变量(因子)对连续型应变量(响应变量)的模型分析,而线性回归分析只要求响应变量是连续的,对于自变量无要求。如果响应变量不是连续型分布,就要使用更加一般化的广义线性模型(generalized linear model),通过一个连接函数变换响应变量期望,将响应变量的期望与自变量建立线性关系。
倍数变化fold change
最简单的是阈值法,用倍数分析基因表达水平差异,即计算基因在两个条件下表达水平的比值(癌症和正常),确定比值的阈值,将绝对值大于此阈值的基因判断为差异基因。
- 差异基因的上调与下调
一般使用log2FC,大于0上调,小于0下调
参考:差异分析