Data Analytics

1 基本概念

1.1 样本空间与随机事件

  • 样本空间
    随机试验的所有可能结果构成的集合,记为S={e},e是样本点
  • 随机事件
    样本空间的子集

1.2 事件的相互关系及运算

  • 包含、相等
  • 和事件(并集):至少一个发生
  • 积事件(交集):同时发生
  • 不相容/互斥(disjoint)
    完全互斥为“补集”(Complement):P(Ac)=1-P(A)
  • 差事件:A发生,B不发生
  • 逆事件(非):A的对立事件

1.3 概率性质

  • 互斥事件的加法准则
    P(A or B)=P(A)+P(B)
  • 一般加法准则
    P(A or B)=P(A)+P(B)-P(A and B)
  • 减法公式
    P(A-B)=P(A)-P(AB)
  • 独立事件的乘法准则
    P(A and B)=P(A)*P(B)
  • 一般乘法准则
    P(AB)=P(A|B)*(B)
  • 独立性,不论A是否发生,都不能提供B是否发生的信息,反之也是
  • 独立事件不互斥,互斥事件不独立

1.4 抽样

  • 简单随机抽样simple random sampling
    抽取结果为n个相互独立且与总体具有相同概率分布的随机变量的整体(independent and identically distributed, iid, 简称独立同分布)
  • 不放回抽样 with replacement:不独立
  • 放回抽样 without replacement:独立

2 概率计算

2.1 古典概型(等可能模型)

  1. 假设
  • 样本点有限
  • 出现每个样本点的概率相等
  1. 例子:抛硬币,掷骰子
  2. 公式
    P(A)=k/n=A包含的样本点数/S中的样本点数
  3. 解决方法:数数,排列组合

2.2 几何概型(按面积比例计算)

2.3 条件概率Conditional Probability

  1. 含义
    已知事件B发生的条件下,事件A发生的概率
  2. 公式
  • 一般乘法准则:P(AB)=P(A|B)*(B)

条件概率也是概率,一切概率性质都适用
e.g. P(A-C|B)=P(A|B)-P(AC|B)

  1. 涉及概念
  • 边缘概率marginal probabilbity:基于单个变量的概率,如男人
  • 联合概率joint probability:基于两个或以上变量的概率,如65岁以上男人
  1. 决策树Tree diagrams
  2. 全概率公式

[图片上传失败...(image-797f5b-1575926762696)]
Ai为完备事件组

  1. 贝叶斯法则Bayes' Theorem
  • P(A|B)=P(B|A)*P(A)/P(B)
  • inverting probability(通过决策树可推导)
    [图片上传失败...(image-c95972-1575926762696)]
  1. 例子
    在加拿大,40岁以上女性中约有0.35%会患乳腺癌。M+(阳性)通常意味得病,M-(阴性)意味没得病。但是大约11%的乳腺癌患者,测出假阴性。 同样,在没有患乳腺癌的测试者中有7%为假阳性。 如果我们对40岁以上的女性进行了随机乳腺癌检查,并且该检查结果呈阳性,那么该患者实际患乳腺癌的可能性是多少?
    用C(Cancer)表示患病,则P(C)=0.0035, P(M+|C)=1-0.11=0.89.
    问题是求P(C|M+),P(C|M+)=P(M+|C)P(C)/P(M+)
    P(M+)包括“真阳性概率”和“假阳性概率”=P(M+|C)
    P(C)+P(M+|NOT C)*P(NOT C)。
    所以P(C|M+)=0.0428

3 随机变量

3.1 变量

[图片上传失败...(image-e659-1575926762696)]

3.2 随机变量Random variable

3.2.1 定义

在样本空间S上的实值单值函数X=X(e)

  • 人为地将随机事件数量化
  • 名为变量,实为函数:S➡️R为一映射,其自变量具有随机性
  • 随机事件可表示为A={e:X(e)∈I}={X∈I}, X落在I上时样本点e的集合
  • 单值:一对一映射,对于i≠j,必有{X=i}∩{X=j}=Ø

3.2.2 离散型随机变量Discrete r.v.

  • 概率分布律probabilibty distributions - 可数集
    A table of all disjoint outcomes and their associated probabilities.
  • 性质:[图片上传失败...(image-9af5b-1575926762696)]

3.2.3 连续型随机变量Continuous r.v.

对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x*有:

连续型随机变量的分布函数

则称X为连续性随机变量,其中f(x)称为X的概率密度函数Probability Density Function (PDF), 是非负的可积函数

  • 分布函数求导可得密度函数,也就是说,密度函数所积面积才是事件发生的概率。
  • 对任意的实数点a,P(X=a)=0
  • 概率密度函数f(x)的充要条件:
    • 积分=1
    • f(x)>=0

3.2.4 期望Expectation

  1. 定义
    合理的平均值。x为取值;p为概率,即取值的能力


    离散型随机变量的期望

    连续型随机变量的期望
  2. 性质
    X~pk, Y=f(x)➡️EY=
    计分制度变了,但取值能力没变
    离散型函数的期望

    连续型函数的期望

    ②线性组合Linear combinations
    线性运算规则

    ③乘积的期望
    XY相互独立,E(XY)=E(X)E(Y)

3.2.5 方差Variance

  1. 定义:波动性
    DX=E(X-EX)^2
    方差

    理解:
  • 定义法:Y=(X-数)^2=g(X)
  • 公式法:开平方算出➡️DX=EX^2 -(EX)^2, 即平方的期望减期望的平方
  1. 性质
    线性组合Linear combinations
    D(aX+b)=a^2×D(X)
    D(X±Y)=DX+DY±2Cov(X,Y)

结合①②,

3.2.6 协方差Covariance

  1. 定义
    Cov(X,Y)=E(X-EX)(Y-EY)=E(XY)-E(X)E(Y),即乘积的期望减期望的乘积
    用于研究两个变量的协同相关的程度,可以衡量两个变量的总体误差,记为Cov(X,Y)。方差是协方差的一种特殊情況。
  2. 相关系数


    协方差的相关性

3.3 分布函数Cumulative Distribution Function (CDF)

  • 定义
    随机变量X,对任意实数x,称函数F(x)=P(X<=x)(x∈R)为随机变量X的概率分布函数。
  • 性质
    • 0<=F(x)<=1
    • F(x)单调不减
    • F(x)是右连续函数,即F(x+0)=F(x)
    • F(-∞)=0,F(+∞)=1

4 常见的随机变量分布

4.1 离散型

4.1.1 伯努利分布Bernoulli distribution(0-1分布)

  1. 定义
    [图片上传失败...(image-54d140-1575926762696)]
  2. 分布律函数
    B(1,p)
    [图片上传失败...(image-c8d7eb-1575926762696)]
  3. 期望与方差
    µ=p, σ=√{p(1-p)}

伯努利分布是二项分布N=1时的特例

4.1.2 几何分布Geometric distribution

  1. 定义
    设试验E只有两个可能的结果:A或者非A,且P(A)=p, 0<p<1。将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
    在n重伯努利试验中,试验k次才得到第一次成功的机率。(首中即停止)
  2. 例子
    守株待兔,等兔子哪天来撞树,撞死带走即回家
  3. 分布律函数
    X~G(p)
    几何分布的分布律函数
  4. 期望与方差
    µ=1/p, σ=√{(1-p)/p^2}

一般情况下,几何分布的概率指数递减(decrease exponentially)

几何分布的概率分布图

4.1.3 二项分布Binomial distribution

  1. 定义
    二项分布表示在n重伯努利试验中结果A发生的次数的离散概率分布。
  2. 例子
    4个买保险的人当中,恰好只有2人超过免赔额的概率是多少?
  3. 分布律函数
    B(n,p)
    [图片上传失败...(image-f9a868-1575926762696)]
  4. 期望与方差
    µ=np, σ=√{np(1-p)}

当试验次数n足够大时,二项分布近似正态分布

4.1.4 负二项分布Negative binomial distribution

  1. 定义
    描述在n重伯努利试验中,成功次数到达指定次数(记为k)时的离散概率分布。几何分布是负二项分布k=1时的特例。
  2. 例子
    教练告诉球员每天踢中4次才能回家
  3. 概率函数


    负二项分布的概率函数

*与二项分布的区别:负二项分布最后一次必为成功 *

4.1.5 泊松分布Poisson distribution

  1. 应用场景
    泊松分布适合于描述某时间段某场合源源不断的质点来流的个数,即单位时间内随机事件发生的次数。
  2. 例子
    8点到9点到超市购物的人数
  3. 分布函数
    X~P(λ)
    泊松分布的分布函数

    参数λ是单位时间(或单位面积)内随机事件的平均发生次数,k是非负整数。
  4. 期望与方差
    μ=λ,σ=√λ

4.2 连续型

4.2.1 均匀分布Uniform

  1. 定义
    每个点都是等可能事件,即概率密度函数为一个常数
  2. 例子
    8点到9点之间老师进入教室的概率
  3. 分布函数
    X~U(a,b)
    均匀分布的分布函数

几何概型是均匀分布的实际背景

4.2.2 指数分布

  1. 定义
    描述泊松过程中的事件之间的时间的概率分布,是几何分布的连续模拟。又称等待分布,寿命函数
  2. 例子
    兔子多久来撞树,以连续时间计算(不以天数计)
  3. 分布函数
    X~E(λ)
    指数分布的分布函数

    参数λ又称失效率
  4. 期望和方差
    EX=1/λ,表示平均寿命

4.2.3 正态分布Normal distribution

以上所有离散和连续型分布,当随机变量n足够多时,都近似正态分布

  1. 分布函数
    X~N(μ, σ^2)
    正态分布的分布函数
  • 标准正态分布(μ=0, σ=1), X~N(0, 1)
  1. 标准分数Z-score
    标准分数是一个观测或数据点的值高于被观测值或测量值的平均值的标准偏差的符号数。z分数可以回答这样一个问题:"一个给定分数距离平均数多少个标准差?"。可以看出某分数在分布中相对位置。通过求Z-score来标准化观测值,以便进行比较


    Z-score
  2. 68-95-99.7 rule
    落在1,2,3个标准差内对应的概率


总结

分布函数总结

5 推论基础Inference

5.1 点估计和抽样变异性Point estimates & sampling variability

5.1.1 相关概念

  • 点估计:指用样本数据来估计总体参数population parameter, 估计结果使用一个点的数值表示“最佳估计值”,因此称为点估计。
  • 误差:一个量的观测值或计算值与其真实值之差(p-ˆp)
    • 抽样误差sampling error:指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。如:抽取本身就更倾向于支持新体育馆的学生群体。样本容量可以用来量化抽样误差。
    • 偏差bias:描述了一个系统性的偏向,会高估还是低估。如:问学生是否通过出资来支持新体育馆。

统计量和观测值的关系与区别

统计量和观测值的关系与区别

5.1.2 抽样分布Sampling distribution

  1. 定义
    按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次计算一个计算值,所有可能样本的计算值所形成的分布。这里计算值即统计量。
  2. 观察指标
  • Center: 抽样分布的平均值,与总体均值相同
  • Spread: 抽样分布的标准差,在抽样分布中称standard error,用SEˆ p表示
    了解总体的可能取值区间,量化样本统计量的置信水平
  • Shape: 抽样分布直方图的形状,可能为正态分布
  • 抽样分布的方差(即标准误SE)比原始样本的方差小
    抽样分布的方差
  • 随着每次抽取样本容量n的增大,variance和skewness逐渐减小
    Variance and skewness decrease as n grows

5.1.3 大数定理Law of large numbers

  • 均值依概率收敛于均值的数学期望


    大数定理

5.1.4 中心极限定理The central limit theorem

  • 随机变量序列部分和分布渐近于正态分布。
    当样本观测值x1,x2,x3,...,xn独立同分布服从于F(μ, σ^2),且样本容量足够大时,样本均值服从正态分布,N(μ, σ^2/n).
  • 条件
    • 独立
    • 大样本Success-failure condition
      np>=10 且 n(1-p)>=10

大数定理研究终点destination,极限定理研究过程journey

5.2 区间估计

区间估计(interval estimation)是从点估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平(confidence level),这个建立起来的包含待估计参数的区间称为置信区间(confidence interval),指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。

5.2.1 构建置信区间Confidence intervals

  • P(|point estimate - μ| < △) = 1-α
    因大样本情况下,统计量服从正态分布,所以一般形式的置信区间=均值 +z∗·SE
    z称为margin of error, 也即z-score, 不同置信区间调整z

已知大样本或总体的μ和σ^2,计算事件概率
例子:伦敦公寓均价1.3m,标准差0.3m,标准化随机变量来计算

5.3 假设检验Hypothesis testing

5.3.1 概念

  • 无效假设Null hypothesis H0:数据集之间(样本和总体之间或样本与样本间)不存在显著差异
  • 备择假设Alternative hypothesis HA:数据集之间存在显著差异
  • 检验统计量Test statistic:根据样本观测结果计算得到的,适用于检验H0的一个样本统计量
  • P-value: 假设H0,检验统计量等于或大于观察值的概率
    • P-value小表示拒绝原假设
    • 从抽样分布中计算得出
  • 显著性水平Significance level α:表示原假设为真时,拒绝原假设的概率。

5.3.2 步骤

  1. 提出假设,设定显著性水平α和样本容量n,选择检验统计量
  2. 检验假设和条件
  3. 决定p-value,拒绝H0如果p-value低于显著性水平

test statistic 的选择

test statistic 的选择

5.3.3 单边检验和双边检验One-tailed and two-tailed tests

  • 单边检验:否定域在接受域的一侧,左侧或右侧
  • 双边检验:否定域在接受域的两侧
    例子:H0: μ=7,HA: µ≠7

5.3.4 Z-test and T-test

  1. Z检验
  • 假设样本服从正态分布的假设检验
  • 一般用于大样本(即样本容量大于30)
  • 需要已知总体标准差σ
  • 经常使用样本标准差s作为近似
  1. T检验
  • 假设样本服从T分布的假设检验
  • 用于小样本
  • 总体标准差σ未知,默认使用s
  • 拒绝原假设的可能性较低

T分布

  • 参数:自由度degrees of freedom v
  • 形状:近似正态分布但更矮更平,随着v增大逐渐接近正态分布
  • 对于样本容量为n的样本使用v = n - 1
    T分布mean=0, variance=v/(v-2)

5.3.6 两类错误Decision errors

  • Type 1 error(弃真):若H0为真,小概率事件可能发生,按检验法则,拒绝了H0。
    犯错误概率=显著性水平α
  • Type 2 error(取伪):若H0不真,按检验法则,接受了H0。
    犯错误概率=β,取决于μ,σ,n,α

Power of a test: 1-β, probability of correctly rejecting H0

Type 1 is more serious更严重
当样本容量n固定时,α、β不能同时都小,即α变小时,β就变大;而β变小时,α就变大(tradeoff)。一般只有当样本容量n增大时,才有可能使两者变小。

5.4 Bootstrap resampling

  • 数据集有放回地抽取样本
    这里的数据集不是总体,是有限个的原始数据。
  • 确定检验统计量和抽样分布
  • 从抽样分布中计算置信区间/p-value
Bootstrap重抽样

5.5 A/B testing

6 线性回归Linear regression

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,165评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,503评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,295评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,589评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,439评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,342评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,749评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,397评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,700评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,740评论 2 313
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,523评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,364评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,755评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,024评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,297评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,721评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,918评论 2 336