基于StatQuest系列学统计(一)

视频来自 youtube 的 StatQuest with Josh Starmer,我翻了翻小破站,看看我发现了什么:基础篇...

因为去年技能树有做过一期学习statquest的活动,所以有一些大佬的笔记可以参考,比如详细视频翻译思维导图等等,除了看视频外,我对于有些实在不理解的概念还翻阅了《白话统计》等等,视频看下就能明白的就不赘述了,开坑啦...

直方图

我们在记录一些数据的时候,可以用图形可以直观看到分布,比如直方图。

直方图.png
直方图特点.png

当然,除了直方图,还有饼图、柱状图、箱线图、散点图、密度图等等。


饼图和柱形图.png
箱线图.png

正态分布(Normal Distribution)

正态分布.png
正态-平均值+标准差.png

t分布

不是一个分布,而是一簇分布,随着自由度的变化而变化,自由度越小,t分布与正态分布偏离越大;当自由度很大(约30以上)的时候,t分布接近正态分布。


中心极限定理(Central Limit Theorem)

敲黑板!!补充理解

置信区间.png

指给定一个任意分布的总体,每次从总体中随机抽样n个抽样,一共抽取m次,然后把这m组抽样分布求出平均值,这些平均值的分布接近正态分布

  • 总体的本身分布不要求正态分布
  • 样本每组要足够大(一般认为每组大于等于30)

以抛掷骰子为例,随机生成10000次结果,结果的数字在1到6之间,计算这6个数字的频数,基本趋于平均。再从这10000次结果中,任取1000组,每组50例,再计算这1000组数的平均数分布,呈正态分布。

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

np.random.seed(1)
a = np.random.randint(1,7,10000) # 以投掷骰子结果
print(type(a))
# 建立一个数字对象 ndarray, 用于存放同类型元素的多维数组
print(np.mean(a),np.std(a))
## 3.5252 1.7113050458641206

data = pd.value_counts(a)
bins=range(1,7)
plt.bar(bins,data)
plt.title("histogram")
plt.show()
分布.png
中心极限定理.png
# 抽样 1000组每组50个
means = []
for n in range(1,1000):
    sample = np.random.choice(a,50)
    means.append(np.mean(sample))

print(np.mean(means),np.std(means))
## 3.526706706706707 0.24534967195126153
plt.hist(means)
plt.show()


如何展示你的数据

标准差和标准误

形象生动的例子

平均值 mean µ

\mu=\frac {\sum x_i}{n}

标准差

样本离散程度的一个度量,用来描述数据的波动性。σ

\sigma=\sqrt{\frac{\sum_{i=1}^{n} (x_i -\mu)^2}{N}}

按照中心极限定理,将正态分布记为 N(\mu, \sigma)

标准差.png
标准误.png
标准误

衡量对应样本统计量抽样误差大小的尺度。

标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用于统计推断。

SE=\frac{\sigma}{\sqrt{n}} (n为样本例数)


自由度(Degree of Freedom,df)

总体分母是n,样本分母就是n-1,n为例数,公式证明这样得到的才是无偏估计。


标准化、中心化

标准化就是计算Z值:Z=\frac{x-\mu}{\sigma}

Z值反映了某个值 x 偏离均数 \mu 的标准差倍数,按照正态分布的规律,一旦标准化就成了以0为均数,1为标准差的标准正态分布

中心化就是Z值的分子部分,x=0 就是 x=均值,使数值有意义。


总体参数(population parameter)

之前的那篇量包子的文章里,要研究的对象,食堂这段时间做出过的所有包子为总体,测量一小部分为样本,通过样本来对总体的统计特征做判断的方法为假设检验(参数的无偏估计)。

零假设 H_0 、备择假设 H_1

P-value

a p-value is the probability that random chance generated the data, or something else that is equal or rarer。

生成某数据的随机机率,或者是和这个机率相等或更小的值。

  • 随机产生这个事件的概率
  • 产生和该事件相同概率的其他事件
  • 产生比该事件的概率更小的事件

概念理解


与样本有关的指标称为统计量,与总体有关的指标称为参数,根据样本信息来估计总体信息,只能获得样本数据,来估计总体参数,这就是参数估计

样本估计 —> 总体参数

  • 点估计

    计算样本均数、方差等,作为总体均数、方差等的估计值。

    • 最小二乘估计 (Least Square Estimation)

      主要用于线性回归的参数估计,求一个使得实际值与模型估计值之差达到最小的值作为参数估计值

    • 最大似然估计 (Maximum Likelihood Estimation)

      将带估计的参数看作确定的量,只是值未知,将使得产生训练样本的概率最大的参数值作为参数的最佳估计

    • 贝叶斯估计

      将带估计的参数看作符合某种先验概率分布的随机变量,通过观察样本,将先验概率密度通过贝叶斯规则转化为后验概率密度

  • 区间估计

    用一个区间来估计参数值。

    Bootstrap 自举法

    从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。从初始样本重复随机替换抽样,生成一个或一系列待检验统计量的经验分布。 无需假设一个特定的理论分布,便可生成统计量的置信区间,并能检验统计假设。

    • 95%置信区间

      参数估计值 \pm 1.96 x 标准误

      95%置信区间.png

我的基础比较薄弱,做不到很快更新,缓缓再来,有同行的小伙伴嘛?

更多学习资源:
生信技能树公益视频合辑
生信技能树简书账号
生信工程师入门最佳指南
生信技能树全球公益巡讲
招学徒
...
你的宣传能让数以万计的初学者找到他们的家,技能树平台一定不会辜负每一个热爱学习和分享的同道中人 😎

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容