生物统计——离散/连续型随机变量与常见分布

本文是对 孟浩巍
生物信息学入门课:学习生信你需要了解的统计学课程的学习。即将开始新的PhD life,乘着暑期时间充裕,再重新回顾学习下生物信息的底层知识——生物统计学。

一. 统计学入门路线与基础知识导读

1. 教材与课程资源推荐

  1. 概率论与数理统计(《概率论基础教程——Sheldon Ross》);医学统计学;概率论教程;
  2. 线性代数+多元统计学;应用回归分析(最小二乘法回归)。
  3. 统计学习(统计需要进行实验设计);机器学习

2. 概率论学习的重点

  1. 概率论学习重点
    • 随机变量和概率的独立性,条件概率,贝叶斯概率公式
    • 随机变量的分布函数,常见的离散/连续分布;
    • 随机变量的数字特征(期望,方差)
    • 假设检验的基本思想,p-value;t-test
    • 单因素方差分析
    • 简单线性回归(本质上检验多重检验的问题)
  2. 医学统计学上的学习重点
    • 上述重点的应用
    • 列联表检验(GO/KEGG):Fisher' test; 卡方检验
    • 生存分析,生存曲线,比较两根曲线有差异;
    • Cox回归分析(风险回归分析)
  3. 一些进阶的课程
    • 《多元统计分析及R语言建模》MOOC(icourse163)
    • 《应用回归分析R语言版》书籍
    • 线性代数/多元统计是机器学习,人工智能的基础
  4. 线性代数学习重点
    • 矩阵运算的本质是空间变换
    • 常用矩阵运算法则
    • 特征值,特征向量的几何理解
    • 常用矩阵分解(普分解)
    • 二次型及其性质
  5. 多元统计分析(做应用)
    • PCA主成分分析(样本数多少的时候,PCA成分好)
    • 线性判别分析
    • 聚类分析(不同聚类方法:欧式距离,曼哈顿距离)
    • 因子分析(哪个基因最重要)
  6. 统计学习+机器学习;吴恩达MOOC
    • 支持向量机(SVM)
    • 聚类算法
    • Logistics回归;
    • 决策树模型;
    • EM算法;
    • 隐马尔可夫模型(HMM)
    • 提升算法

二. 随机变量与概率的计算

1. 什么是随机试验?与随机变量?

例如掷色子,抛硬币,任意时间到达车站。量X是随着试验的结果的不同而变化。

  • 离散型随机变量(所有可能取的值为有限个)
  • 连续型随机变量(可能取值无穷多)

2. 什么是概率?概率如何计算?

  • 根据概率的公理化定义来推导出来。而非概率的收敛

3. 什么是随机变量的分布律,概率密度函数?

  • 离散型变量:随机变量的分布律


    随机变量的概率分布律
  • 连续型变量X:概率密度函数f(x)


    image

4. 什么是随机变量的概率分布函数?

  • 离散型和连续型随机变量 二者都可以求概率分布函数F(X)。分布函数是一个累加的效应

三. 常见离散随机分布

1. 二项分布

image
二项分布的性质

X轴为出现某个事件的次数,y轴为出现对应次数的概率。

  • 当p为0.5时,分布是最对称的,当p为0~1其它数时,分布是不均匀的。

  • 在生信上的应用:在基因组上进行mutation判断的时候,利用二项分布进行检验。(具体计算genome wide的所有突变率当作参数p,背景mutation,总reads数为n;判断某一特定位点是否为mutation:观察到突变数为k的pvalue)

  • 缺点:计算量巨大。所以通常情况下,在总数n很大,p很小,np不大的时候用泊松分布进行拟合,效果非常好。

2. 泊松分布

泊松分布

仅有一个参数“入”,即是期望均值,又是方差。

  • 可以理解为单位时间内,出现 概率非常小的事 的概率就服从泊松分布。
    • 具体例子如:单位时间内洪水发生的次数;矿井在某段时间发生事故的次数;WGS中比对到某一个区域内的reads count;RNA-seq中1个gene中比对到的reads count数目。
  • 泊松定理:泊松分布是二项分布的极限分布,当n比较大,p比较小(p<0.1,np<10)时候,二项分布可看成是参数为np的泊松分布。
  • 大多是利用泊松分布去近似计算
n=100000
p=10^(-4)

#二项分布binorm
pbinorm(q=0,size=n,prob=p)

#泊松分布ppoison
ppois(q=0,lambda=n*p)

3. 超几何分布

超几何分布
  • 无放回的抽样
  • GO富集与KEGG富集中的Fisher Exact Test就是利用超几何分布

4. 几何分布

几何分布
  • 出现第一次成功所需要的实验次数;

  • 几何分布是具有无记忆性的。假设已经有m次都没有成功,那么为了首次成功再等待的时间是与前面失败次数m是无关的。

5. 负二项分布(帕斯卡分布)

image
  • Reads count就是使用泊松分布的估计和负二项分布的修正。genome很大,reads落到genome的任意一个区域是一个很小概率的事件。可以认为服从泊松分布。reads count就是服从泊松分布。
  • 缺点:不能保证随机抽样的结果符合期望和方差相等。
image

disperson 即为k

6. Lander Waterman曲线

image
  • M=1表面就是个完整的基因组。M>1表面还有很多部分没测到。需要增加很多测序量,M下降的为log的测序。

四. 常见连续随机分布

(概率密度函数)

1. 指数分布

  • 各种寿命的分布的近似。
  • 指数分布具有无记忆性。可以理解为是几何分布的极限推广。

2. Gamma分布

  • 常作为某个事件总共出现N次的等待时间;
  • 可以理解称负二项分布的连续推广。
  • 芯片数据处理时利用Gamma分布。

3. 正态分布(高斯分布,误差分布)(Normal distribution)

image
  • 正态分布的3sigma法则:1sigma 68.3%,2sigma 95%,3sigma 99%的面积。

  • 对应boxplot:中位数,Q1下四分数点,Q3上四分数点,IQR,Q1-1.5IQR,Q3+1.5IQR,超过为离群点。2.698sigma已包含98%以上的数

    image

  • 若影响某一数量指标的随机因素很多,而每个因素所起的作用都不大,则这个指标就服从正态分布。

  • 正态分布的加和也服从正态分布。

4. 大数定律 和 中心极限定理

大数定律:随机变量的平均值能够收敛到期望值。

中心极限定理:大量随机变量的加和之后的分布再某些条件下是逼近正态分布的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,311评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,339评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,671评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,252评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,253评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,031评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,340评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,973评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,466评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,937评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,039评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,701评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,254评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,259评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,497评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,786评论 2 345

推荐阅读更多精彩内容