1 基本概念

1.1 样本空间与随机事件

样本空间
随机试验的所有可能结果构成的集合，记为S={e}，e是样本点
随机事件
样本空间的子集

1.2 事件的相互关系及运算

包含、相等
和事件（并集）：至少一个发生
积事件（交集）：同时发生
不相容/互斥(disjoint)
完全互斥为“补集”(Complement):P(Ac)=1-P(A)
差事件：A发生，B不发生
逆事件（非）：A的对立事件

1.3 概率性质

互斥事件的加法准则
P(A or B)=P(A)+P(B)
一般加法准则
P(A or B)=P(A)+P(B)-P(A and B)
减法公式
P(A-B)=P(A)-P(AB)
独立事件的乘法准则
P(A and B)=P(A)*P(B)
一般乘法准则
P(AB)=P(A|B)*(B)

独立性，不论A是否发生，都不能提供B是否发生的信息，反之也是

独立事件不互斥，互斥事件不独立

1.4 抽样

简单随机抽样simple random sampling
抽取结果为n个相互独立且与总体具有相同概率分布的随机变量的整体(independent and identically distributed, iid, 简称独立同分布)

不放回抽样 with replacement：不独立

放回抽样 without replacement：独立

2 概率计算

2.1 古典概型（等可能模型）

假设

样本点有限
出现每个样本点的概率相等

例子：抛硬币，掷骰子
公式
P(A)=k/n=A包含的样本点数/S中的样本点数
解决方法：数数，排列组合

2.2 几何概型（按面积比例计算）

2.3 条件概率Conditional Probability

含义
已知事件B发生的条件下，事件A发生的概率
公式

一般乘法准则：P(AB)=P(A|B)*(B)

条件概率也是概率，一切概率性质都适用
e.g. P(A-C|B)=P(A|B)-P(AC|B)

涉及概念

边缘概率marginal probabilbity：基于单个变量的概率，如男人
联合概率joint probability：基于两个或以上变量的概率，如65岁以上男人

决策树Tree diagrams
全概率公式

[图片上传失败...(image-797f5b-1575926762696)]
Ai为完备事件组

贝叶斯法则Bayes' Theorem

P(A|B)=P(B|A)*P(A)/P(B)
inverting probability（通过决策树可推导）
[图片上传失败...(image-c95972-1575926762696)]

例子
在加拿大，40岁以上女性中约有0.35％会患乳腺癌。M+（阳性）通常意味得病，M-（阴性）意味没得病。但是大约11％的乳腺癌患者，测出假阴性。同样，在没有患乳腺癌的测试者中有7％为假阳性。如果我们对40岁以上的女性进行了随机乳腺癌检查，并且该检查结果呈阳性，那么该患者实际患乳腺癌的可能性是多少？
用C(Cancer)表示患病，则P(C)=0.0035, P(M+|C)=1-0.11=0.89.
问题是求P(C|M+)，P(C|M+)=P(M+|C)P(C)/P(M+)
P(M+)包括“真阳性概率”和“假阳性概率”=P(M+|C)P(C)+P(M+|NOT C)*P(NOT C)。
所以P(C|M+)=0.0428

3 随机变量

3.1 变量

[图片上传失败...(image-e659-1575926762696)]

3.2 随机变量Random variable

3.2.1 定义

在样本空间S上的实值单值函数X=X(e)

人为地将随机事件数量化
名为变量，实为函数：S➡️R为一映射，其自变量具有随机性
随机事件可表示为A={e:X(e)∈I}={X∈I}, X落在I上时样本点e的集合
单值：一对一映射，对于i≠j，必有{X=i}∩{X=j}=Ø

3.2.2 离散型随机变量Discrete r.v.

概率分布律probabilibty distributions - 可数集
A table of all disjoint outcomes and their associated probabilities.
性质：[图片上传失败...(image-9af5b-1575926762696)]

3.2.3 连续型随机变量Continuous r.v.

对于随机变量X的分布函数F(x)，若存在非负的函数f(x)，使对于任意实数x*有：

连续型随机变量的分布函数

则称X为连续性随机变量，其中f(x)称为X的概率密度函数Probability Density Function (PDF), 是非负的可积函数

分布函数求导可得密度函数，也就是说，密度函数所积面积才是事件发生的概率。

对任意的实数点a，P(X=a)=0

概率密度函数f(x)的充要条件：

积分=1

f(x)>=0

3.2.4 期望Expectation

定义
合理的平均值。x为取值；p为概率，即取值的能力

离散型随机变量的期望

连续型随机变量的期望
性质
①X~pk, Y=f(x)➡️EY=
计分制度变了，但取值能力没变

离散型函数的期望

连续型函数的期望

②线性组合Linear combinations

线性运算规则

③乘积的期望
X与Y相互独立，E(XY)=E(X)E(Y)

3.2.5 方差Variance

定义：波动性
DX=E(X-EX)^2

方差

理解：

定义法：Y=(X-数)^2=g(X)
公式法：开平方算出➡️DX=EX^2 -(EX)^2, 即平方的期望减期望的平方

性质
线性组合Linear combinations
①D(aX+b)=a^2×D(X)
②D(X±Y)=DX+DY±2Cov(X,Y)

结合①②，

3.2.6 协方差Covariance

定义
Cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y)，即乘积的期望减期望的乘积
用于研究两个变量的协同相关的程度，可以衡量两个变量的总体误差，记为Cov(X,Y)。方差是协方差的一种特殊情況。
相关系数

协方差的相关性

3.3 分布函数Cumulative Distribution Function (CDF)

定义
随机变量X，对任意实数x，称函数F(x)=P(X<=x)(x∈R)为随机变量X的概率分布函数。
性质
- 0<=F(x)<=1
- F(x)单调不减
- F(x)是右连续函数，即F(x+0)=F(x)
- F(-∞)=0，F(+∞)=1

4 常见的随机变量分布

4.1 离散型

4.1.1 伯努利分布Bernoulli distribution（0-1分布）

定义
[图片上传失败...(image-54d140-1575926762696)]
分布律函数
B(1,p)
[图片上传失败...(image-c8d7eb-1575926762696)]
期望与方差
µ=p, σ=√{p(1-p)}

伯努利分布是二项分布N=1时的特例

4.1.2 几何分布Geometric distribution

定义
设试验E只有两个可能的结果：A或者非A，且P(A)=p, 0<p<1。将E独立地重复地进行n次，则称这一串重复的独立试验为n重伯努利试验。
在n重伯努利试验中，试验k次才得到第一次成功的机率。（首中即停止）
例子
守株待兔，等兔子哪天来撞树，撞死带走即回家
分布律函数
X~G(p)

几何分布的分布律函数
期望与方差
µ=1/p, σ=√{(1-p)/p^2}

一般情况下，几何分布的概率指数递减(decrease exponentially)

几何分布的概率分布图

4.1.3 二项分布Binomial distribution

定义
二项分布表示在n重伯努利试验中结果A发生的次数的离散概率分布。
例子
4个买保险的人当中，恰好只有2人超过免赔额的概率是多少？
分布律函数
B(n,p)
[图片上传失败...(image-f9a868-1575926762696)]
期望与方差
µ=np, σ=√{np(1-p)}

当试验次数n足够大时，二项分布近似正态分布

4.1.4 负二项分布Negative binomial distribution

定义
描述在n重伯努利试验中，成功次数到达指定次数（记为k）时的离散概率分布。几何分布是负二项分布k=1时的特例。
例子
教练告诉球员每天踢中4次才能回家
概率函数

负二项分布的概率函数

*与二项分布的区别：负二项分布最后一次必为成功 *

4.1.5 泊松分布Poisson distribution

应用场景
泊松分布适合于描述某时间段某场合源源不断的质点来流的个数，即单位时间内随机事件发生的次数。
例子
8点到9点到超市购物的人数
分布函数
X~P(λ)

泊松分布的分布函数

参数λ是单位时间(或单位面积)内随机事件的平均发生次数，k是非负整数。
期望与方差
μ=λ，σ=√λ

4.2 连续型

4.2.1 均匀分布Uniform

定义
每个点都是等可能事件，即概率密度函数为一个常数
例子
8点到9点之间老师进入教室的概率
分布函数
X~U(a,b)

均匀分布的分布函数

几何概型是均匀分布的实际背景

4.2.2 指数分布

定义
描述泊松过程中的事件之间的时间的概率分布，是几何分布的连续模拟。又称等待分布，寿命函数
例子
兔子多久来撞树，以连续时间计算（不以天数计）
分布函数
X~E(λ)

指数分布的分布函数

参数λ又称失效率
期望和方差
EX=1/λ，表示平均寿命

4.2.3 正态分布Normal distribution

以上所有离散和连续型分布，当随机变量n足够多时，都近似正态分布

分布函数
X~N(μ, σ^2)

正态分布的分布函数

标准正态分布(μ=0, σ=1), X~N(0, 1)

标准分数Z-score
标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。z分数可以回答这样一个问题："一个给定分数距离平均数多少个标准差?"。可以看出某分数在分布中相对位置。通过求Z-score来标准化观测值，以便进行比较

Z-score
68-95-99.7 rule
落在1，2，3个标准差内对应的概率

总结

分布函数总结

5 推论基础Inference

5.1 点估计和抽样变异性Point estimates & sampling variability

5.1.1 相关概念

点估计：指用样本数据来估计总体参数population parameter，估计结果使用一个点的数值表示“最佳估计值”，因此称为点估计。
误差：一个量的观测值或计算值与其真实值之差（p-ˆp）
- 抽样误差sampling error：指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构，而引起抽样指标和全局指标的绝对离差。如：抽取本身就更倾向于支持新体育馆的学生群体。样本容量可以用来量化抽样误差。
- 偏差bias：描述了一个系统性的偏向，会高估还是低估。如：问学生是否通过出资来支持新体育馆。

统计量和观测值的关系与区别

统计量和观测值的关系与区别

5.1.2 抽样分布Sampling distribution

定义
按照相同的样本容量，相同的抽样方式，反复地抽取样本，每次计算一个计算值，所有可能样本的计算值所形成的分布。这里计算值即统计量。
观察指标

Center: 抽样分布的平均值，与总体均值相同
Spread: 抽样分布的标准差，在抽样分布中称standard error，用SEˆ p表示
了解总体的可能取值区间，量化样本统计量的置信水平
Shape: 抽样分布直方图的形状，可能为正态分布

抽样分布的方差（即标准误SE）比原始样本的方差小

抽样分布的方差

随着每次抽取样本容量n的增大，variance和skewness逐渐减小

Variance and skewness decrease as n grows

5.1.3 大数定理Law of large numbers

均值依概率收敛于均值的数学期望

大数定理

5.1.4 中心极限定理The central limit theorem

随机变量序列部分和分布渐近于正态分布。
当样本观测值x1,x2,x3,...,xn独立同分布服从于F(μ, σ^2)，且样本容量足够大时，样本均值服从正态分布，N(μ, σ^2/n).
条件
- 独立
- 大样本Success-failure condition
  np>=10 且 n(1-p)>=10

大数定理研究终点destination,极限定理研究过程journey

5.2 区间估计

区间估计（interval estimation）是从点估计值和抽样标准误差出发，按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level），这个建立起来的包含待估计参数的区间称为置信区间（confidence interval），指总体参数值落在样本统计值某一区内的概率；而置信区间是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

5.2.1 构建置信区间Confidence intervals

P(|point estimate - μ| < △) = 1-α
因大样本情况下，统计量服从正态分布，所以一般形式的置信区间=均值 +z∗·SE
z称为margin of error, 也即z-score, 不同置信区间调整z值

已知大样本或总体的μ和σ^2，计算事件概率
例子：伦敦公寓均价1.3m，标准差0.3m，标准化随机变量来计算

5.3 假设检验Hypothesis testing

5.3.1 概念

无效假设Null hypothesis H0：数据集之间（样本和总体之间或样本与样本间）不存在显著差异
备择假设Alternative hypothesis HA：数据集之间存在显著差异
检验统计量Test statistic：根据样本观测结果计算得到的，适用于检验H0的一个样本统计量
P-value: 假设H0，检验统计量等于或大于观察值的概率
- P-value小表示拒绝原假设
- 从抽样分布中计算得出
显著性水平Signiﬁcance level α：表示原假设为真时，拒绝原假设的概率。

5.3.2 步骤

提出假设，设定显著性水平α和样本容量n，选择检验统计量
检验假设和条件
决定p-value，拒绝H0如果p-value低于显著性水平

test statistic 的选择

test statistic 的选择

5.3.3 单边检验和双边检验One-tailed and two-tailed tests

单边检验：否定域在接受域的一侧，左侧或右侧
双边检验：否定域在接受域的两侧
例子：H0: μ=7，HA: µ≠7

5.3.4 Z-test and T-test

Z检验

假设样本服从正态分布的假设检验
一般用于大样本(即样本容量大于30)
需要已知总体标准差σ
经常使用样本标准差s作为近似

T检验

假设样本服从T分布的假设检验
用于小样本
总体标准差σ未知，默认使用s
拒绝原假设的可能性较低

T分布

参数：自由度degrees of freedom v

形状：近似正态分布但更矮更平，随着v增大逐渐接近正态分布

对于样本容量为n的样本使用v = n - 1

T分布mean=0, variance=v/(v-2)

5.3.6 两类错误Decision errors

Type 1 error(弃真)：若H0为真，小概率事件可能发生，按检验法则，拒绝了H0。
犯错误概率=显著性水平α
Type 2 error(取伪)：若H0不真，按检验法则，接受了H0。
犯错误概率=β，取决于μ，σ，n，α

Power of a test: 1-β, probability of correctly rejecting H0

Type 1 is more serious更严重
当样本容量n固定时，α、β不能同时都小，即α变小时，β就变大；而β变小时，α就变大(tradeoff)。一般只有当样本容量n增大时，才有可能使两者变小。

5.4 Bootstrap resampling

从数据集中有放回地抽取样本
这里的数据集不是总体，是有限个的原始数据。
确定检验统计量和抽样分布
从抽样分布中计算置信区间/p-value

Bootstrap重抽样

Data Analytics