统计学学习笔记

《深入浅出统计学》

大纲

1.统计学的作用
2.集中趋势的量度
3.分散性与变异性的量度
4.概率计算
5.离散概率分布的运用
6.排列与组合
7.几何分布、二项分布和泊松分布
8.正态分布的应用
9.超越正态分布的应用
10.统计抽样的应用
11.总体和样本的估计
12.置信区间的构建

统计学的作用

1.统计学可以帮助企业做出客观的决策,能够进行精准地预测
2.统计学能够使我们个人避免遭人愚弄

  1. 信息与数据的区别:
    • “数据”是指所收集的原始事实与数字。
    • “信息”是指加入了某种意义的数据
      例如 ,数字5、6、7 只是数字,并不知道有何含义——数据
      告诉这几个数代表三个孩子的年龄,数据有意义了——信息
集中趋势的量度
  1. 均值
    容易受异常值和偏斜数据的影响
  2. 中位数
  3. 众数
分散性和变异性的量度

1.极差
区分数据集分散程度,最大值-最小值

2.四分位数

  • 将数据一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数。
  • 四分位距:中间的四分位数即中位数。
  • 四分位的优点是:与全距相比,较少受到异常值的影响。只关注居于数据中央的50%的数据,这样才能排除异常值的干扰。

3.十分位数,百分位数
第K百分数数即位于数据范围K%处的数值

4.可用箱线图绘制各种“距”

5.方差
方差是衡量数据分散性的一种方法,是数值与均值的距离的平方数的平均值

计算方差常用公式

6.标准差
标准差是描述典型值与均值距离的一种方法,标准差越小,数值离均值越近。
度量数据的分散性

7.标准分
对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。

标准分求解
概率统计
  1. 众数
  2. 概率
概率计算公式

3.条件概率

条件概率

4.全概率公式

与A一起发生,不与A一起发生

5.贝叶斯公式

贝叶斯公式
树轴法
离散概率分布的应用

1.期望:描述的是概率分布

期望

2.方差和标准差——度量一些特定数值的概率的分散情况的方法

方差越高,表示你的整体收益变化越大,整体的赢钱数额更不可预期,整体收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。

方差

3.线性变换
如果成本+1,奖赏变为5倍,期望和方差成线性变化

线性变换

4.独立观测的期望和方差

独立观测
排列与组合
  1. 排位方式
image.png

2.按类型排序

image.png

3.排列
从N个对象中取出R个对象进行排序,并得出排序方式总数目

排列

4.组合
从N个对象中选取r 个对象,不必知道所选对象的确切顺序

组合
几何分布、二项分布、泊松分布
  1. 概率的几何分布
    几何分布的应用条件:进行多次互相独立的试验,每一次试验都存在失败或成功的可能性。
几何分布
需要试验r次以上
需要试验r次或不到r次
期望值
方差

2.二项分布
二项分布使用的条件:进行一系列独立试验,每一次试验成功的概率都相同,且试验次数有限。

二项分布
image.png
期望值
方差

3.泊松分布
使用条件
在遇到独立事件时,若已知 r 且你感兴趣的是一个特定时间区间内的发生次数,使用泊松分布
描述了事件在特定区间内的发生次数
在特定条件下可以用来近似代替二项分布

泊松分布
期望与方差
代替二项分布
正态分布的应用
  1. 对于离散概率分布来说,我们关心的是取得一个特定数值的概率;而对于连续概率分布来说,我们关心的是取得一个特定范围的概率

2.概率密度函数的总面积必须是1
3.正态分布函数

image.png

4.概率密度计算的方法:

  • 确定分布和范围(计算标准差和方差)
  • 使其标准化
标准化
  • 查找范围
超级正态
  1. 知道x和y 的概率分布,就能算出x+y的概率分布
x+y的概率分布
x+y的均值
x+y的方差

2.x属于正态分布,ax+b属于整天分布,则ax+b的概率分布

image.png

3.如果X1, X2, ....Xn为X的独立观测结果,且X符合正态分布,则:

独立观测的期望值

4.正态分布代替二项分布

image.png

如果用正态分布近似代替二项分布,则需要进行连续性修正,这样才能得到较为准确的结果。因为二项分布是离散型而正态分布是连续型

  • 计算p(x>=a)时,离散数字x是a-0.5
  • 计算p(x<=a)时。离散数字x是a+0.5

5.正态分布代替泊松分布

image.png

用正态分布近似代替泊松分布,要进行连续型修正
6.总结

image.png
抽取样本

1.样本

  • 无偏样本
  • 偏倚样本
  • 抽样空间中条目补全
  • 抽样单位不正确
  • 抽样单位未出现在实际样本中
  • 样本缺乏随机性

2.如何选择样本

  • 简单随机抽样
  • 分成抽样
  • 整群抽样
  • 系统抽样
  • 重复抽样
  • 不重复抽样
总体和样本的估计

1.均值

  • 总体均值:


    总体均值
  • 样本均值
样本均值
  • 点估计量:根据样本数据得出的对你所认为的总体均值的最佳猜测值
点估计量

2.总体方差:比样本方差偏大

总体方差

3.预测总体比例:比例算法用于解决二项分布问题

总体成功比例的点估计量
样本成功比例

4.抽样分布的概率

  • 例如:Z个球,红球的比例为40%, 现在取出100个球, 里面有40个红球的概率
  • 随机变量X代替样本中红球的个数,则样本中红球的比例为Ps = X/n,n为取出的球数
  • 每个样本中,红色球的数量符合B(n,p), 成功比例为Ps=X/n
  • 期望:


    期望
image.png
  • 方差:
image.png
image.png
  • 比例标准误差:
image.png

n越大,比例标准误差越小

image.png
  • 连续性修正
image.png

5.中心极限定理:如果从一个非正态总体X中取出一个样本,且样本很大,则抽取n个样品的分布也近似为正态分布

image.png
image.png
  • 中心极限定理的作用
    对于二项分布,总体均值为np,方差为npq, 如果带入抽样分布,则


    image.png

    对于泊松分布,均值和方差都为r,则得:


    image.png
置信区间的构建

1.求解置信区间步骤

  • 选择总体统计量
  • 求出其抽样分布
  • 决定置信水平
  • 求出置信上下限

2.置信区间计算的简单算法

image.png

3.置信区间简明算法——t分布
当n很小时,t分布给出的置信区间比正态分布的置信区间更宽,着使它更适合小样本


image.png

《漫话统计学》
我们调查一件事,调查总体与样本

数据分为
不可测量的数据——分类数据(因人而异)

可测量的数据——数值数据 ( 有具体可衡量的数值)

组、组中值、次数、相对次数、次数分布表、直方图、变量、组距、组中值

算数平均数、arithmetic mean 几何平均数、 geometric mean 调和平均数harmonic mean

中位数median

标准差 :表示一组数据“平均离散程度”的指标 standard Deviation

描述统计学和推断统计学
第三章:掌握数据整体的状态

将问卷调查转变成次数分布表
第四章:标准计分和离差

离差;Deviation Score

标准差: Standard deviation

标准化: Standardization

标准计分:standard score (数据-平均数)/标注差
第五章:求机率

机率密度函数:Probability Density Function 简称:pdf
正态分布函数
以平均值为中心呈左右对称

受到平均值和标准差的影响

面积=比例=机率

标准正态分布表记录对应横轴的可读之机率的表

卡方分布
卡方分布表则记录对应机率之横轴刻度的表 x^2

t分布

f分布

excel 中的分布与对应的函数


双变量的相关分析

相关系数 :correlation coefficient

共变异数:covariance

变异数:variance

相关比:correlation Ratio
数值数据和分类数据是用“相关比” 其值 介于0和1之间

克莱姆相关系数 (独立系数)
分类数据和分类数据之间的相关程度,介于0和1之间
第八章:深入理解独立性检验 (卡方检验)

20170527154429.png

P值和“检验”的顺序

独立性检验和齐性检验

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容