深入浅出统计学

一、信息图形化

二、集中趋势的量度

三、分散性与变异性的量度

四、概率计算

五、离散概率的分布

六、排列与组合

七、几何分布、二项分布及泊松分布

八、正态分布的运用

九、统计抽样的运用

十、总体和样本的估计

十一、置信区间的构建

十二、假设检验的运用

十三、卡方分布

十四、相关与回归

一、信息图形化
数据中隐含着一些模式和趋势,图形是发现数据隐含模式的一种有效的方法。
不同的坐标轴起点和标度都会影响人们通过视觉观察图形的判断结果。(对比同一数据不用纵坐标起点和标量的图一图二)

import numpy as np
x1=np.arange(6)
print(x1)
y=np.array([2.0,2.1,2.2,2.1,2.3,2.4])
x2=np.arange(6)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
plt.plot(x1,y)
plt.xticks(np.arange(6),['7月','8月','9月','10月','11月','12月'])
image.png
import numpy as np
x1=np.arange(6)
print(x1)
y=np.array([2.0,2.1,2.2,2.1,2.3,2.4])
x2=np.arange(6)
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
plt.plot(x1,y)
plt.ylim(0,5)
plt.xticks(np.arange(6),['7月','8月','9月','10月','11月','12月'])

image.png

从图一和图二可知这两个图的数据基础相同,却传递着不同的信息。因此在对数据图像化时要慎重选择图形和坐标轴的范围和标量。

1、饼图:饼图是对不同组(或者类)所占的比例进行比较,但是要注意,在这个例子中,各个组的比例相差无几,见下图。

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
x2=np.array([27500,11500,6000,3500,1500])
labels=['体育','策略','动作','射击','其他']
colors=["b","r","y","g","c"]
labeldistance=1.1
plt.pie(x2,labels=labels,radius=1.0,colors=colors,autopct='%.0f%%',labeldistance=labeldistance)
image.png

比例区别明显

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
x2=np.array([1800,1600,1750,1900,1500])
labels=['体育','策略','动作','射击','其他']
colors=["b","r","y","g","c"]
labeldistance=1.1
plt.pie(x2,labels=labels,radius=1.0,colors=colors,autopct='%.0f%%',labeldistance=labeldistance)
image.png

比例区别不明显
2、条形图可以弥补饼图的不足(能更容易比较出细微的差别,见下图),它分为垂直的和水平的。

import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
y=np.array([1800,1600,1750,1900,1500])
x2=np.array(['体育','策略','动作','射击','其他'])
plt.bar(x2,y,width=0.5,align='center')
for a,b in zip(x2,y):
    plt.text(a,b,b,ha='center',va='bottom',fontsize=12)
image.png
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']="SimHei"
y=np.array([1800,1600,1750,1900,1500])
x2=np.array(['体育','策略','动作','射击','其他'])
plt.barh(x2,height=0.5,width=y,align='center')
for a,b in zip(x2,y):
    plt.text(b,a,b,ha='center',va='bottom',fontsize=12)

image.png

条形图更快、更容易地衡量出最大值和最小值,垂直条形图更常用,不过类的名称太长,则用水平条形图更适合
3、堆积条形图:当想比较频数时,可以试试用它,但很难看出比例和百分数。
351D5BCCC325A2633F6DAD01A4DF9AF1.png

4、分段条形图:若想同时体现频数和百分数可以用它,这种图用一整段长方形代表一个类,但可以按比例把一整段长方形分割成几小段。长方形的整体反映整体频数。通过这种图可以快速看出每个类的总数
EC1F23EE1BB7EC0A3732CB4874AC1606.png

5、直方图

  • 类别数据:数据被划为各种类别,用以描述某类的性质或特征。所以类别数据又称为定性数据

  • 数据型数据:数据型数据中的数据具有数字的意义,但还涉及计量或计数。由于数值型数据描述的是数量,所以也成为定量数据
    直方图能更好处理数值型数据,体现数据。
    a.直方图特点:

  • 每个长方形的面积与频数成比例

  • 图上的长方形之间没有间隔(因此,求每个区间的宽度,以及每个区间涵盖的数据范围时要注意,如:199与200之间的区间取199.5处汇合,但年龄是例外,表示18 ~ 19这个年龄范围,我们通过会取18~20这个区间)
    b.作直方图的步骤:[求直方图长方形的宽度]>[求长方形高度]>[画出直方图]
    :长方形高度用于度量一个特定组的频数的集中程度,是对频数密集度的一种度量,是用于说明数字到底是“稠密”还是“稀薄”的一种方法,长方形的高度成为频数密度
    频数密度的作用:是可以对宽度有差别的几个区间进行比较。频数与长方形的面积成比例而不是高度。

    B58392D4909E6AB0B8346692BD139D52.png

    !!(小知识点):累计频数是指某个数值的累计频数到这个数值为止(包括这个数值在内)的频数总和,它的图是折线图。我们可以通过从图上读出累积频数
    !!:不要使用折线图显示类别数据。只有显示每个类别的趋势,且每条线代表一个类别才会使用折线图
    二、集中趋势的度量
    1、均值:平均数的一般度量 μ(缪)=ΣX/n,μ=∑fx/Σf(已知频数,将频数累加∑f)(用法:用在数据非常对称,且仅显示一种趋势)
    !!:异常值:与其他数据格格不入的极高或极低的数值。
    !!:当异常值将数据向左或向右”拉“时即产生偏斜数据
    !!:均值它会给出一个不存在于数据集中区的数值。

  • 向右偏斜:偏大异常值拉高了均值。

  • 向左偏斜:偏小异常值拉低了均值。
    2、中位数:它能避免数据偏斜和异常值产生的误导,我们可以使用另外一种平均数——中位数,用它表示典型值。(用法:在数据由于异常值而发生偏斜时使用)
    3、众数:是第三种平均数,可以为多个,表现总体趋势。(用法(两种):众数数目较少时/数据为类别数据,因为众数是唯一能用于类别数据的平均数,及上述两种都不行用在类别数据
    三、分散性与变异性的量度
    1、全距:又称为极值,适用于度量数据集分散程度的一种方法,其算法为:上界-下界 其中上界为最大值,下界为最小值。它只是对数据分布情况极其基本的描述,它不能指出数据的真实形态以及数据是否包含异常值。
    2、迷你距:它可以忽略异常值,即我们不再度量全距,而是找出全距的一部分(不包含异常值的部分)进行度量。

  • a、 四分位距:每两个四分位数之间的距被称为四分位距。下四分位数为第一四分位数(最小的四分位数Q1),上四分位数为第三四分位数(最大的四分位数)由于下四分位数以下和上四分位数以上还有25%的数据,四分位距仅使用了中间50%的数据,所以这样就能将异常值(极大值和极小值)排除在外,不用来计算
    - 四分位数的求法:假如有n个数 1.下四分位数位置:n/4(整数),否则向上取。eg:有6个数,6/4=1.5,取2这个位置的数。2.上四分位数位置:3n/4(整数),否则向上取。
    - 四分位距:上四分位数-下四分位数

  • b、百分位距:用百分位数构成的一个新距,类似四分位距。四分位数是一分为四的数值,百分位数是将数据一分为百的数值。通常,第k百分位数就是位于数据范围的k%[k(n/100)]处的数值,常用Pk表示。注:k%[k(n/100)]不为整数时记得向上取。
    3、箱线图:绘制各种”距”

    AB40F7E5A19DA644AB13DA7F7D9BBDF2.png

    数据向右偏斜,均值在中位数右边,数据向左偏斜,均值在中位数左边
    4、方差与标准差
    方差:是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。方差:∑(x-μ)^2 / n,常用方法:方差=(∑x^2 / n)-μ^2
    标准差:方差的开方,标准差σ,σ^2=方差。它更直观度量分散性。
    5、标准分:使用标准分可以对不同数据集的数据进行比较,而这些不同数据集的均值和标准差各不相同。eg:可以通过标准分比较球员相对其本人历史记录的表现。z=(x-μ)/σ(标准分=数值x距离均值的标准差个数。
    四、概率计算
    1、事件:有概率可言的一个结果或一件事。

  • 事件A的概率:P(A)=n(A)/n(S),S被称为样本空间,或概率空间,表示所有有可能的结果,可能发生的事件都是S的子集。n(A)为发事件A的可能数目,n(S)为所有结果的数目。

  • 对立事件:A‘是A的对立事件,即事件A不可能发生的事件,它的概率为P(A)=1-P(A')

  • 当两个事件是相互独立的,我们可以两个概率相加P(A/B)=n(A)/n(S)+n(B)/n(S),即P(A/B)=P(A)+P(B)

  • 相交事件:如果两个。事件相交,则这两个事件有可能同时发生P(A∪B)=P(A)+P(B)-P(A∩B)

    F0EEDEE233AA6399AE2D80576BD8F041.png

  • 互斥事件:如果两个事件是互斥事件,则只有其中一个事件会发生。
    P(A∩B)=0

  • 穷举事件:如果事件A与事件B为穷举事件,则P(A∪B)=1
    **A与A’既是互斥,又是穷举。A和A‘不可能有任何的共同要素,所以互斥;A和A'两者加起来则形成整个概率空间,因此两者穷举。

2、条件概率:a、P(A|B)=P(A∩B)/P(B) 所以P(A∩B)=P(A|B)P(B)
b、P(B∩A)=P(B|A)
P(A) 》a与b结合得: P(A|B)=P(B|A)P(A)/P(B)
如果A与B互斥,则P(A|B)=0
3、全概率:
P(B)=P(A∩B)+P(A'∩B)
P(A∩B)=P(A)
P(B|A)
P(A'∩B)=P(A')P(B|A')
所以P(B)=P(A)
P(B|A)+P(A')P(B|A')
4、贝叶斯定理:
P(A|B)=P(A∩B)/P(B),P(B)=P(A)
P(B|A)+P(A')P(B|A') ,
P(B∩A)=P(B|A)
P(A)=P(A∩B)
所以P(A|B)=P(B∩A)/P(B) 得:
P(A|B)=P(B|A)P(A)/P(A)P(B|A)+P(A')P(B|A')
该定理提供了一种
逆条件概率算法,即当你无法预知每种概率时很管用(需要求的条件概率与已知条件概率顺序相反时使用)
5、独立事件:P(A|B)=P(A) P(A∩B)=P(A)*P(B)
五、离散概率的分布
1、期望只是预测结果
变量X的期望写作E(X)=(X-μ)^2 ΣxP(X=x) 把期望看作均值即可。
2、方差:Var=E(X-μ)^2
E(X-μ)^2=Σ(x-μ) ^2 *P(X=x)
之前的数据集的方差和标准差是 度量数据与均值的距离 的方法,而概率分布的方差和标准差是 度量一些特定数值的概率的分散情况的方法。
3、线性变换的通用公式
若随机变量为X:E(aX+b)=aE(X)+b Var(aX+b)=a^2Var(X)这就是所谓的线性变换,因为X发生的是线性变化——即基础概率保持不变,但数值变为新值,其形式为:aX+b 注:常数b不影响方差,但影响期望
4、独立观测值:eg:每一局游戏称为一个事件,每一局游戏的结果称为一个观测值。它们是独立事件X1和X2,它们有相同的期望和方差,但是它们本身是不同的结果。

  • 独立观测值的期望:E(X1+X2+……)=nE(X) **X1+X2+……可表示X1+X2+……局游戏的概率分布。
  • 独立观测值的方差:Var(X1+X2+……)=nVar(X)
  • 如果X和Y是独立随机变量,则:
    E(X+Y)=E(X)+E(Y)
    E(X-Y)=E(X)-E(Y)
    Var(X+Y)=Var(X)+Var(Y)
    Var(X-Y)=Var(X)+Var(Y)
  • X和Y的线性变换的期望和方差用下列各式进行计算:
    E(aX+bY)=aE(X)+bE(Y)
    E(aX-bY)=aE(X)-bE(Y)
    Var(aX+bY)=a^2 Var(X)+b^2Var(Y)
    Var(aX-bY)=a^2 Var(X)+b^2Var(Y)
    六、排列与组合
    1、排位方式的计算公式:
  • 如果要求n个对象的可能排位方式的数目,则计算:n!=n(n-1)……32*1
  • 如果n个对象作圆形排位,则可能的排位方式的数目为(n-1)!
    注:
  • 如果把顺时针和逆时针看作同一情况进行计算,则排位方式的数目为(n-1)!/2
  • 如果n个对象作圆形排位,且考虑对象的绝对位置,则排位方式的数目为n!
    2、按种类排名:
    如果要为n个对象排位,其中包括第一类对象k个,第二类对象j个,第三类对象m个……则排位方式的数目为:n!/(j!k!m!……)
    3、排列:
    排列是指从一个较大(n个)对象群体中去出一定数目(r个)对象进行排序,并得出排序方式的总数目。nPr=n!/(n-r)! 其中,n为总对象个数,r为要计算的对象个数。
    4、组合
    组合是指从一个较大(n个)对象群体中去出一定数目(r个)对象进行排序,但不考虑r的具体排序,并得出排序方式的总数目。
    nCr=n!/[r!(n-r)!]
    七、几何分布、二项分布及泊松分布
    1、几何分布条件:
    a.进行一系列相互独立的试验
    b.每一次试验都既有成功的可能,又有失败的可能,且单次试验的成功概率相同。
    c.为了获取第一次成功需要进行多少次试验
  • X~Geo(p)表示几何分布,p为单次试验成功概率,q=1-p,X为为了取得第一次成功而需要的试验次数。
    在第r次试验取得第一次成功的概率:P(X=r)=pq^(r-1)
    需要试验r次以上才能取得第一次成功的概率:P(X>r)=q^r
    需要试验r次或者不到r次取得第一次成功的概率:P(X<=r)=1-q^r
  • 几何分布的期望:E(X)=1/p
  • 几何分布的方差:Var(X)=q/p^2
    2、二项分布条件:
    a、进行一系列相互独立的试验
    b、每一次试验都既有成功的可能,又有失败的可能,且单次试验的成功概率相同。
    c、试验的次数是有限的,为了得到成功的次数
  • X~B(n,p)表示二项分布,X表示n次试验中的成功次数,p为每一次试验成功概率,n为试验次数。
    为了求出获得r次成功的概率:P(X=r)=nCr* p^r * q^(n-r) 其中nCr=n! / r!(n-r)!
  • 二项分布的期望:E(X)=np
  • 二项分布的方差:Var(X)=npq
    3、泊松分布条件:
    a、单独事件在给定区间内随机、独立地发生,给定区间可以是时间或空间,例如是一个星期,也可以是一英里。
    b、已知该区间内的事件平均发生次数(或者叫做发生率),且为有限数值。该事件平均发生次数用希腊字母λ表示。
  • 如果X符合泊松分布,且每个区间内平均发生λ次,或者说发生率为λ,则写作:X~Po(λ)
    在给定区间内发生r次事件的概率:P(X=r)=[e^(-λ) * λ^r ]/r! 一般计算时e取2.718
  • 泊松分布的期望:E(X)=λ
  • 泊松分布的方差:Var(X)=λ
  • 组合泊松变量:如果X和Y是独立随机变量,且都符合泊松分布,XPo(λ),YPo(λ),则X+Y也符合泊松分布,那么可利用X和Y的分布情况求出X+Y的概率:X+Y~Po(λx+λy)
    !!:当n很大(比方说大于50)且p很小(比方说小于0.1)时,可以用泊松分布 X ~ Po(λ) 近似代替二项分布X~B(n,p),那是因为当n很大时,nCr比较难计算。(这时的E(X)=np=λ代入泊松分布公式)
    !!:泊松分布 X ~ Po(λ) 近似代替二项分布X~ B(n,p)表示:X~Po(np)
    八、正态分布的运用
    1、连续数据的概率分布:对于之前的离散概率分布来说,我们关心的是取得一个特定数值的概率;对于连续概率分布来说,我们关心的是取得一个特定范围的概率
  • 概率密度:它是一种表示概率的方法,但它并非概率本身。概率密度函数是图形中的一条线条,而概率则是这条线下方的一定范围内的面积。概率密度通过面积表示概率的大小,频数密度通过面积表示频数的大小
    2、正态分布(高斯分布):它之所以被称为正态,是因为它的形态看起来合乎理想。在现实生活中,遇到测量值之类的大量数据时,你“正常情况下”会期望看到这种形态。X~N(μ,σ^2)
    8C3B000B0249EDCEC71967924BA29CF6.png

    μ指出曲线的中央位置,σ2指出分散性。在实践中,这意味着σ2越大,正态分布曲线越扁平,越宽。
  • 正态概率计算的三步法:1确定分布与范围 2使标准化 3查找概率
    1确定分布与范围 :求出均值和标准差
    2使标准化:标准化N(0,1) Z=(X-μ)/σ eg:μ=70,σ^2=20.25可得σ=4.5
    于是得到 (X-70)/4.5 ~ N (0,1)或表示为Z ~N(0,1),其中Z=(X-70)/4.5
    3查找概率表<自己找呀!> eg:P(Z<-3.27)则找列-3.2,行0.07的交点就是它的概率(表上找到的都是“<=”的),所以 P(Z>z)=1-P(Z<z) P(a<Z<b)=P(Z<b)-P(Z<a) [可以画画正态分布图来理解理解]
    谈谈正态分布
  • 1、X+Y与X-Y概率分布
    如果X和Y是独立变量,则可以只用简便方法计算均值和标准差
    若X~ N(μx,σx^2),Y~ N(μy,σy^2),且X和Y是独立变量,则:
    X+Y~ N(μx+μy,σx2+σy2)
    X-Y~ N(μx-μy,σx2+σy2)
  • a、如果X~ N(μ,σ^2)且a和b都是数字,则:ax+b ~ N (aμ+b,a2)
  • b、如果X1,X2,X3,X4……Xn为X的独立观察结果,且X~N(nμ,nσ^2)
  • 2、正态分布近似代替二项分布
    如果X~ B(n,p),且np>5,nq>5,则可以使用X~N(np,npq)近似代替二项分布。
    !!因为正态分布是连续分布,二项分布是离散分布,为了更精准,我们需要在代替之前必须连续性修正
  • a、在用<=和>=计算概率时,你需要确保不等式中的数值落在已知概率范围之内。因此,假如要计算P(X<=10),则需要确保数值范围中包括10,即需要考虑P(X<10.5)。
  • b、在用<和>计算概率时,你需要确保不等式中的数值落在已知概率范围之外。因此,假如要计算P(X<10),则需要确保数值范围中不包括10,即需要考虑P(X<9.5)。
    !!区分:我们之前有谈过的是:泊松分布 X ~ Po(λ) 近似代替二项分布X~B(n,p),当n>50)且p<0.1)时。
    1CED814B8B4B108E3F519EF7AE1BBCB0.png

九、统计抽样的运用
1、总体:是指你所研究的所有事物的集合。
2、样本:是从总体中选取的相对较小的集合,可用于做出关于总体本身的结论。
3、抽样空间:抽样空间列出总体中的所有独立单位,被作为样本的基础,但它并不是样本本身,这是因为我们不会抽取样本空间中的所有对象。eg:如果你的目标总体是入读某大学的全体学生,那么可以采用大学注册表。
4、偏倚样本:无法代表目标总体,由于样本与总体的特性不相似,无法根据样本对总体做出判断。

  • 偏倚样本的来源:a、抽样空间中条目不齐全,因此未包含目标总体中的所有对象。b、抽样单位不正确。c、为样本选取的一个个抽样单位未出现在现实样本中。d、调查问卷的问题设计不当。e、样本缺乏随机性。
    5、抽样:
  • a、简单随机抽样:随机选择抽样单位并形成样本,包括重复抽样不重复抽样。简单随机抽样具体方式包括抽签或者使用随即编号生成器
  • b、分层抽样:即将总体划分为几个组,或者几个层,组或层中的单位都相似,每一层都尽可能与其他层不一样分好层后,就对每一层进行简单随机抽取
  • c、整群抽样:即将总体划分为几个群,其中每个群都尽可能与其他群相似,可通过简单随机抽样抽取几个群,然后用这些群中的每一个抽样单位形成样本
  • d、系统抽样:即选取一个数字k,然后每到第k个抽样单位就抽样一次。
    十、总体和样本的估计
    1、总体均值(μ):将总体中的所有数据相加,然后除以数据个数之和。
    2、样本均值:将样本中的所有数据相加,然后除以样本个数之和。
    3、点估计量:它其实是根据样本数据得到的对你所认为的总体均值的最佳猜测值。
    C31AC2A64E10773117857180B3A701CE.png

    4、用样本数据估计总体方差:
    总体方差点估计量S2=∑(X-样本均值)2/(n-1) 为了估计更准确,除数用(n-1)
    5、预测总体比例:
    如果我们用X表示总体的成功时间数量,则X符合二项分布。就像总体均值的最接近估计是样本均值一样,总体成功比例的最接近猜测肯定是样本成功比例。样本成功比例Ps(总体成功比例的点估计量),我们吧样本成功比例作为总体成功比例的点估计量
    Ps=成功数目/样本数目
    :二项分布是唯一与比例相关的分布。比例算法专门用于解决这种分布的问题。
    FFD06BF3032EF92D4705888DB26E0D06.png

    6、比例的抽样分布(又称为Ps的分布)可理解为样本比例的一个分布
  • 比如:当我们不知道样本中红色糖球的数目,但我们知道它的分布,我们可以取出大小为n的可能样本为数众多,每一个可能样本会包含n颗糖球,每一盒样本中的红色糖球的数量会符合相同的分布——对于每一个样本,红色糖球的数量符合B(n,p),成功比例则为X/n
    BFE402A31831798A8EA128426F897068.png
  • Ps的期望与方差:E(Ps)=p Var(Ps)=pq/n 其中p为总体比例。
  • 样本比例与总体比例的的差距,我们称它为比例标准误差=√(pq/n),样本数目越大,用样本比例作为P的估计量越可靠。
  • Ps符合正态分布:当n很大(n>30)时,Ps的分布接近正态分布,n越大,Ps的分布越接近正态分布。Ps ~ N (P,pq/n)
    在使用正态分布之前,一定要进行连续性修正,连续性修正=+/-(1/2n)
    90045F49476AC72F4E536D8BC8EAD055.png

    35ECE743E5E48994343DA024DEC2C51D.png

    7、均值的抽样分布:可理解为样本均值的一个分布
  • 样本均值的期望和方差:E期望=μ,Var方差=σ^2/n ,其中μ和σ^2是总体的均值和方差。
  • 样本均值与μ的可能偏离距离,我i们称它为均值标准误差=σ/√n,即样本数目越大,作为总体均值的估计量越可靠。
    **如果X符合正态分布,则X样本均值也符合正态分布。
    5EAB59790CAD3ADDBA6EDF69606C135A.png

    例题:
    AC33D283A0581D2B28C85146ADE8BFCE.png

    8、中心极限定理:如果n很大,且X不符合正态分布,则样本均值符合正态分布:样本均值~N(μ,σ^2/n)。
  • 二项分布:假如总体符合X~ B(n,p)表示,其中n大于30。二项分布:μ=np,σ^2 =npq。根据中心极限定理,样本均值~N(μ,σ^2/n ),把μ=np,σ^2=npq代入得:样本均值 ~N(np,pq)
  • 泊松分布:假如总体符合X~Po(λ)表示,其中n大于30。泊松分布:μ=σ^2=λ。根据中心极限定理,样本均值 ~ N(μ,σ^2/n ),把μ=σ^2=λ代入得:样本均值~N(λ,λ/n)
    十一、置信区间的构建
    1、求解置信区间四步骤:
    a.选择总体统计量
    b.求出其抽样分布
    c.决定置信水平
    d.求出置信上下限
  • a.选择总体统计量:选取要为之构建置信区间的统计量,这取决与要解决的时间问题 eg:需要为口香糖的口味持续时间的均值构建一个置信区间,于是就需要为总体均值μ构建一个置信区间。
  • b.求出其抽样分布:接着上一点a.我们为了求出总体均值的抽样分布,我们需要知道样本均值的期望和方差:[均值的抽样分布]E(样本均值)=μ Var(样本均值)=σ^2/n 由于不知道σ^2的真值,必须根据样本进行估计:Var(样本均值)=S^2/n E(样本均值)=μ 这是因为我们需要求出μ的置信区间,我们需要清楚地知道样本均值的分布
  • c.决定置信水平
    我们从b就可以知道样本均值的期望和方差,
    置信水平即总体均值处于置信区间以内的概率。若置信水平为95%,则相应概率为0.95。**置信水平越高,区间越宽,置信区间包含总体统计量的几率越大。
  • d.求出置信上下限:
    最后求a和b——置信区间的上下限,上下限指出一个范围的左右边界。a和b的确切值取决于需要使用的抽样分布以及需要具有的置信水平。
    接着c.我们选取95%,那么a、b之间的概率必须为0.95,详见下图:
    138E61A60CD0EEA2095B322E03C71C2B.png
    查正态分布表查出a和b
    53EFEC24BAE3B77796D345A4C7EBB999.png

    最后要写出置信区间的标准形式P(Za<Z<Zb)
    !!有的还要求样本均值的数值,看下图:
    F7AF359601ACA590546F49497F10BBF2.png

    置信区间总结和简便算法
    779FB2EE028F6392293F4B6365E9BBC3.png

    2、t分布:当样本很小的时候,样本均值符合t分布。当总体符合正态分布,σ^2未知,且样本很小,样本均值符合t分布。它只有一个参数v,v=n-1.n为样本的大小,v为自由度。
  • t分布的标准分T值=(样本均值-μ)/(s/√n)


    806C88308642DA1144C59D16D698F4EA.png
  • t分布的置信上下限以及查t概率表
    BEE9AD4519BD325BC089E36E7C949C8F.png

    **当样本均值符合t分布要求,那么求置信区间是第一二部跟之前是一样的,只是三四部变了[求t的标准分T和求上下限再结合v和P查t表]
    十二、假设检验的运用
    1、假设检验六步骤
    a、确定要进行检验的假设
    b、选择检验统计量
    c、确定用于做决策的拒绝域
    d、求出检验统计量的P值
    e、查看样本结果是否位于拒绝域内
    f、作出决策
  • a、确定假设:
    它包括我们所检验的这个断言被称为原假设,以H0表示,除非我们有充分证据进行反驳,否则就要接受这个断言。
    与原假设对立的断言被称为备择假设,用H1表示。如果有足够的证据拒绝H0,我们就接受H1。
    在进行假设检验时,你假定原假设为真,如果有足够的证据反驳原假设,则拒绝原假设,接受备择假设。
  • b、选择检验统计量:


    580F8B0F802813B1ABB00B6589227298.png
  • c、确定拒绝域:
    显著性水平:即希望在样本结果的不可能程度达到多大时,就拒绝原假设H0,就像置信区间的置信水平,显著性水平以百分数表示。
    ABFBE41DB3D65858252C6BA8BC87E5AE.png

    !!注意:拒绝域落在数据集的哪一侧,取决于备择假设
    单尾检验:备择假设为<,那么使用左尾检验;备择假设为>,那么使用右尾假设;
    双尾检验:备择假设为不等号(<>),则双尾检验。
    9A46994303B0EFAA1492F85151D60D84.png
  • d、求出P值根据备择假设求P,再根据我们求出来的结果P与拒绝域作比较,
  • e、看P值是否包含在拒绝域中。
  • f、作出决策:若P值落在检验的拒绝域之外,则我们没有充分证据拒绝原假设。
    十三、X^2(卡方)分布
    1、检验统计量X^2 提供了一种对观察频数和期望频数之间的差异进行度量的办法。X^2的数值越小,观察频数和期望频数之间的总差值越小。
    X^2 =∑(O-E)^2/E 其中O为观察频数,E为期望频数。
    2、卡方分布的两种用途:A、检验拟合优度:检验一组给定的数据与指定分布的吻合程度。B、检验两个变量的独立性:可以检查变量之间是。
    否存在某种关联。
    v为自由度数目:及用于计算检验统计量X^2的独立变量的数目。v=(组数)-(限制数)
    0B3ECBA3A797679DA3429EB27C873AC1.png

    X^2分布指的是观察频数和期望频数之间的差异显著性,它和其他假设检验一样,这都取决于显著性水平。用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。通过查看检验统计量是否位于右尾的拒绝域以内
    用显著性水平α进行检验,可以写成X^2a(v)**
    根据α和v进行查X^2概率
    C08479433C7E687CC0219040F5D79272.png

    A、X^2假设检验步骤(检验拟合优度)
    a、确定要进行检验的假设以及其备择假设
    b、求出期望频数和自由度
    c、确定用于做决策的拒绝域
    d、计算检验统计量X^2
    e、查看检验统计量是否位于拒绝域以内
    f、作出决策
    B、检验两个变量的独立性的步骤与上述的检验拟合优度一样
    设立一个假设,用观察频数和期望频数计算X^2检验统计量,然后查看结果是否落在拒绝域之内。
    !!一般求期望频数的方法:期望频数=(行合计×列合计)/总和
    十四、相关与回归
    1、单变量数据:仅涉及一个变量,二变量数据涉及两个变量。
    2、散点图:
    散点图的作用在于能体现数据的实际模式,数据点呈直线分布,我们将这种现象称为相关
  • 散点图显示出数据对之间的相关性。a、正线性相关 b、负线性相关 c、不相关


    IMG_4890(20190919-204604).jpg
  • 相关关系与因果关系:
    两个变量之间存在相关关系并不一定意味着一个变量影响另一个变量,也不意味着二者存在实际关系。
  • 最佳拟合线预测数值:
    在散点图上画一条穿过这些点的直线,使这条直线尽量接近各个点,能最好地接近所有数据点的线被称为最佳拟合线。
  • 最佳拟合线公式:线性回归法是一种求最佳拟合线y=a+bx的数学方法
    y=a+bx(回归线) 其中b=Σ((x-x均值)(y-y均值)) /∑(x-x均值)^2 最后求a[这即为最小二乘回归法
  • 相关系数r是介于-1和1之间的一个数,描述的是数据与最佳拟合线的偏离距离。如果r=-1,则为完全负线性相关;如果r=1,则为完全正线性相关;如果r=0,则为不存在相关性。r的计算公式:r=bSx /Sy,其中Sx=√[Σ(x-x均值)^2 /(n-1)],Sx其实是x值的标准差,Sy=√[Σ(y-y均值)^2 /(n-1)], Sy其实是y值的标准差。
    PS:这是看《深入浅出统计学》自己整理笔记
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,378评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,356评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,702评论 0 342
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,259评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,263评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,036评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,349评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,979评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,469评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,938评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,059评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,703评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,257评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,262评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,485评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,501评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,792评论 2 345

推荐阅读更多精彩内容