本文是对 孟浩巍
生物信息学入门课:学习生信你需要了解的统计学课程的学习。即将开始新的PhD life,乘着暑期时间充裕,再重新回顾学习下生物信息的底层知识——生物统计学。
一. 统计学入门路线与基础知识导读
1. 教材与课程资源推荐
- 概率论与数理统计(《概率论基础教程——Sheldon Ross》);医学统计学;概率论教程;
- 线性代数+多元统计学;应用回归分析(最小二乘法回归)。
- 统计学习(统计需要进行实验设计);机器学习
2. 概率论学习的重点
- 概率论学习重点
- 随机变量和概率的独立性,条件概率,贝叶斯概率公式
- 随机变量的分布函数,常见的离散/连续分布;
- 随机变量的数字特征(期望,方差)
- 假设检验的基本思想,p-value;t-test
- 单因素方差分析
- 简单线性回归(本质上检验多重检验的问题)
- 医学统计学上的学习重点
- 上述重点的应用
- 列联表检验(GO/KEGG):Fisher' test; 卡方检验
- 生存分析,生存曲线,比较两根曲线有差异;
- Cox回归分析(风险回归分析)
- 一些进阶的课程
- 《多元统计分析及R语言建模》MOOC(icourse163)
- 《应用回归分析R语言版》书籍
- 线性代数/多元统计是机器学习,人工智能的基础
- 线性代数学习重点
- 矩阵运算的本质是空间变换
- 常用矩阵运算法则
- 特征值,特征向量的几何理解
- 常用矩阵分解(普分解)
- 二次型及其性质
- 多元统计分析(做应用)
- PCA主成分分析(样本数多少的时候,PCA成分好)
- 线性判别分析
- 聚类分析(不同聚类方法:欧式距离,曼哈顿距离)
- 因子分析(哪个基因最重要)
- 统计学习+机器学习;吴恩达MOOC
- 支持向量机(SVM)
- 聚类算法
- Logistics回归;
- 决策树模型;
- EM算法;
- 隐马尔可夫模型(HMM)
- 提升算法
二. 随机变量与概率的计算
1. 什么是随机试验?与随机变量?
例如掷色子,抛硬币,任意时间到达车站。量X是随着试验的结果的不同而变化。
- 离散型随机变量(所有可能取的值为有限个)
- 连续型随机变量(可能取值无穷多)
2. 什么是概率?概率如何计算?
- 根据概率的公理化定义来推导出来。而非概率的收敛
3. 什么是随机变量的分布律,概率密度函数?
-
离散型变量:随机变量的分布律
-
连续型变量X:概率密度函数f(x)
4. 什么是随机变量的概率分布函数?
- 离散型和连续型随机变量 二者都可以求概率分布函数F(X)。分布函数是一个累加的效应
三. 常见离散随机分布
1. 二项分布
X轴为出现某个事件的次数,y轴为出现对应次数的概率。
当p为0.5时,分布是最对称的,当p为0~1其它数时,分布是不均匀的。
在生信上的应用:在基因组上进行mutation判断的时候,利用二项分布进行检验。(具体计算genome wide的所有突变率当作参数p,背景mutation,总reads数为n;判断某一特定位点是否为mutation:观察到突变数为k的pvalue)
缺点:计算量巨大。所以通常情况下,在总数n很大,p很小,np不大的时候用泊松分布进行拟合,效果非常好。
2. 泊松分布
仅有一个参数“入”,即是期望均值,又是方差。
-
可以理解为单位时间内,出现 概率非常小的事 的概率就服从泊松分布。
- 具体例子如:单位时间内洪水发生的次数;矿井在某段时间发生事故的次数;WGS中比对到某一个区域内的reads count;RNA-seq中1个gene中比对到的reads count数目。
- 泊松定理:泊松分布是二项分布的极限分布,当n比较大,p比较小(p<0.1,np<10)时候,二项分布可看成是参数为np的泊松分布。
- 大多是利用泊松分布去近似计算
n=100000
p=10^(-4)
#二项分布binorm
pbinorm(q=0,size=n,prob=p)
#泊松分布ppoison
ppois(q=0,lambda=n*p)
3. 超几何分布
- 无放回的抽样
- GO富集与KEGG富集中的Fisher Exact Test就是利用超几何分布
4. 几何分布
出现第一次成功所需要的实验次数;
几何分布是具有无记忆性的。假设已经有m次都没有成功,那么为了首次成功再等待的时间是与前面失败次数m是无关的。
5. 负二项分布(帕斯卡分布)
- Reads count就是使用泊松分布的估计和负二项分布的修正。genome很大,reads落到genome的任意一个区域是一个很小概率的事件。可以认为服从泊松分布。reads count就是服从泊松分布。
- 缺点:不能保证随机抽样的结果符合期望和方差相等。
disperson 即为k
6. Lander Waterman曲线
- M=1表面就是个完整的基因组。M>1表面还有很多部分没测到。需要增加很多测序量,M下降的为log的测序。
四. 常见连续随机分布
(概率密度函数)
1. 指数分布
- 各种寿命的分布的近似。
- 指数分布具有无记忆性。可以理解为是几何分布的极限推广。
2. Gamma分布
- 常作为某个事件总共出现N次的等待时间;
- 可以理解称负二项分布的连续推广。
- 芯片数据处理时利用Gamma分布。
3. 正态分布(高斯分布,误差分布)(Normal distribution)
正态分布的3sigma法则:1sigma 68.3%,2sigma 95%,3sigma 99%的面积。
-
对应boxplot:中位数,Q1下四分数点,Q3上四分数点,IQR,Q1-1.5IQR,Q3+1.5IQR,超过为离群点。2.698sigma已包含98%以上的数
若影响某一数量指标的随机因素很多,而每个因素所起的作用都不大,则这个指标就服从正态分布。
正态分布的加和也服从正态分布。
4. 大数定律 和 中心极限定理
大数定律:随机变量的平均值能够收敛到期望值。
中心极限定理:大量随机变量的加和之后的分布再某些条件下是逼近正态分布的。