白话统计-----基础篇读书笔记
第一章:为什么要学统计学
1.1为什么要学习统计学?
(1)对于医学生从实际用途上讲,学习统计学可以助力我们的科研工作,开阔思路。
(2)同时学习统计学能培养一种理性看待事物的能力。
1,2生活事事皆统计
生活中处处是统计学的身影,无论是生活常识“看云识雨”,还是事物发展规律"物极必反"都与统计学的相关知识密不可分。人生充满不确定性,而统计学正是处理这种不确定性的方法。
1.3如何学习统计学
好吧,努力学习和练习是必不可少的,除此之外,我们要明确:统计分析思路永远是第一位的,而软件操作是第二位的。
第二章:变异---统计存在的基础
统计学为什么存在呢?所有统计学的发展,或者说统计学之所以存在,那就是变异以及变异所导致的抽样误差。想象一下,如果全世界所有人的身高都是1.70米,只要随便量一个人的身高,就知道了全世界人的身高。那统计学就没有存在的必要了。
2.1 随机与变异
随机现象:在一定条件下可能发生也可能不发生的现象。
变异:具有可比性的对象之间的差异,其使试验或者观察结果具有不确定性。
正是因为变异,所以才会出现随机事件,才会有统计学的发展,在看似杂乱的现象中找出潜在的规律。
2.2 特朗普与罗斯福的胜出——抽样调查到底可不可靠
越来越多的数据表明:科学合理的抽样调查,其推断结果是可靠的。但是为什么罗斯福的抽样调查预测结果却失败呢?首先抽样调查的可靠性不仅取决于样本量的大小,更重要的是样本对总体是否有充分的代表性。其次,还有一些影响因素:比如调查员的水平,总体人群的变化等。
2.3什么是抽样误差
抽样误差:是指用样本统计值与被推断的总体参数出现的偏差。
由于抽样误差的存在,我们可以用置信区间来估计总体参数。
抽样误差的大小如何计算?通常使用标准误。如果标准误较小,则说明抽样误差较小,这意味着样本很稳定,对总体的代表性很好,推论的结果应该较为可靠;但如果标准误较大,则说明抽样误差大,提示样本的代表性不强,这种情况下一般需要加大样本量,否则结果不可靠。
第三章:郭靖的内力能支撑多久---谈概率分布
3.1累积分布和概率密度的通俗理解
累积分布函数一般用F(x)表示,概率密度函数一般用f(x)表示。累计分布比较容易理解,以郭靖内力的消耗为例,累计分布记录的是郭靖内力消耗量从0%至100%随时间变化的过程。概率密度函数则表示的是概率的密度,它其实是累计分布函数的导函数,表示的是郭靖在某一时间点的内力消耗量。
二者之间的关系:密度=累计分布的增加量/长度 累积分布增加量=密度*长度
常见的一些概率密度函数:t分布、正态分布、二项分布、Weibull分布等
3.2 用Weibull分布寻找生存规律
首先我们要明确,生存数据中生存和死亡的意义。任意我们关注的事件结局都可以称为"死亡",未发生的结局都可以称为“生存”。
本节的生存数据我们用Weibull分布拟合效果较好,这个主要是通过经验积累才能判断对于出现的数据模型我们应该采用什么样的分布拟合。
Weibull分布常用于生存数据拟合,它的形状主要由两个参数决定,参数反应曲线位置,参数p控制曲线形状。(p=1是为指数分布;p=2是为瑞利分布)
由本节例子我们可以看出,当固定参数p时,越大相同横坐标对的纵坐标的值越大;当固定参数时,p<1时率逐渐递减,p=1时为指数分布率值恒定,p>1时率逐渐增加,p=2时为瑞利分布率呈线性增长。
3.3 用Logistic分布探索疾病流行规律
Logistic分布常用于研究一些物种的生命周期的演变规律,比如,人口变化、生物种群变化、疾病感染情况变化等,所以也把它称为“生长曲线”。
Logistic分布通常为三参数或者二参数形式。
三参数Logistic曲线中k表示上线值、a反应增长速度、b表示拐点,即从b点开始上升速度变慢。有些情况下上线值已经确定(一般为1),这时候就变成了二参数Logistic曲线。
Logistic分布的基本形式为S形曲线,可以分为四个阶段:发生、发展、成熟、饱和。
3.4“普通”正态分布
正态分布主要由两个参数决定:均数(位置参数)和标准差(形状参数)
(1)均数是位置参数,当恒定时,均数越大,则曲线沿X轴越向右移,反之,则越向左移。
(2)标准差是形状参数,当均数恒定时,标准差越大,分布越“矮胖”,标准差越小,分布越“瘦高”。
(3)x距离均数越远,密度值越小,且为逐渐降低。
(4)正态分布的曲线下面积:
()区间为:68.2%
()区间为:95.4%
()区间为:99.7%
(4)应用:六西格玛质量控制,是将错误发生率控制在6倍标准差之外,在正态分布中,超出6倍标准差的面积约为百万分之一,主要用于一些要求比较高的领域。
3.5常用的一些分布
t分布(可以看做是小样本的正态分布)
(1)当自由度越小,t分布与标准正态分布偏离越大
(2)当自由度很大(30-50),t分布接近标准正态分布
(3)EXCEL中可以利用TINV函数输出不同面积对应的t值
(4)常用于两个均数是否相等的统计检验、回归系数是否为0的统计检验。
分布
(1)Z于一个服从标准正态分布的随机变量Z,它的平方服从自由度为1的分布,也就是说对于自由度为1的分布,它的值是标准正态分布相应z值的平方
(2)服从自由度为1 的的分布;服从自由度为n 的的分布
(3)分布只有一个参数——自由度。总的来说分布呈偏态分布,但随着自由度的增加,其偏度逐渐减小;当自由度趋于无穷时,其分布趋于正态分布
(4)EXCEL中可以利用CHISQ.INV函数输出不同面积对应的值
F分布
(1)当分子自由度较小时,F分布呈偏态分布,但随着分子自由度的增加,其偏度逐渐减小,其分布趋于正态分布。在方差分析中,分子自由度为组别数-1,由于组别数通常不会太多,因此F分布一般呈偏态分布
(2)EXCEL中可以利用FINV函数输出不同面积对应的F值
(3)常用于方差齐性检验、方差分析和回归模型检验
第四章:关于统计资料类型的思考
常见的资料类型
1.定量资料:a 连续型资料 b 离散型资料
2.定性资料:a二分类资料 b 无序多分类资料 c 有序多分类资料
4.1计数资料等于分类资料吗
计数资料:其实就是对于某个事件进行计数的资料,例如对于咳嗽次数的计数,这种清点得到的数值是有单位的。而分类资料是没有单位的。两者是不同的数据类型。
计数资料服从Poisson分布,所以在回归分析的时候使用Poisson回归或者负二项回归。两个回归之间的区别在于,Poisson一般用于个体之间相互独立的情形,而负二项回归则用于个体之间不独立的情形,比如说咳嗽是相互传染的,那么分析的时候需要用到负二项回归。
分类资料服从二项分布或者多项分布,一般采用二分类或多项Logistic回归分析。
4.2计数资料可以按连续资料来分析吗?
这个一般来说是不能的。计数资料只能为非负数,这种资料往往表现为偏态分布,不适合进行一般线性模型分析。
除非满足以下条件:
(1)计数资料取值都离0很远,大致呈正态分布
(2)如果主要研究目的是进行预测,而且研究者对预测出现小数点甚至负数不是很介意,这种情况下,可以考虑将计数资料作为连续资料进行分析
4.3分类资料中的有序和无序是如何确定的?
如果研究目的关注等级或者程度上的差异,则可以将其作为有序分类资料,进行秩和检验。
如果研究目的只是想了解各级别的构成情况,并不关注程度上的区别,则可以将其作为无序分类资料,进行卡方检验。
4.4 连续资料什么时候需要转换为分类资料
(1)出于实际应用的考虑。比如为了说明BMI与患高血压风险之间的关系时,将BMI转换为肥胖人群和正常体重人群可以更加清楚简便的表达我们的观点。
(2)如果连续资料本身与结果变量之间并不是线性关系,那么有时候为了简便问题,可以考虑将其作为分类资料。划分的过程中尤其要注意划分的界限不要有重叠。
4.5连续资料如何分组——寻找cut-off值的多种方法
1 根据专业和实际经验
主要适用于一些常规变量。
而且要注意:当样本量较小时,最好只分为两类,否则容易导致结果不可靠。而且作为参照组的那一类例数不能太少,否则你会发现所有估计结果都是不稳定的。
2 利用广义可加模型结合专业来划分
广义可加模型绘制出来的曲线不一定是线性的。这个模型主要用来探索自变量和因变量的关系。
3 利用ROC曲线找出cut-off值来划分
ROC曲线是以灵敏度为y轴,以1-特异度为x轴,由不同界值产生不同的点,将这些点连接起来形成的。
主要的用途:a 评价某个/多个指标的诊断/分类的效果 b 寻找最佳的指标阈值使得分类效果最佳
利用ROC曲线找出cut-off值 :前提条件:有一个明确的二分类结局;ROC曲线中最接近左上角的点就是cut-off值,或者通过计算使(灵敏度+特异度-1)取值最大的一个点作为cut-off值。
4 利用最大选择秩统计量来划分
当因变量是定量资料或者生存资料时,这时候不适合再应用ROC曲线,这时可以应用最大选择秩统计量来寻找cut-off值。其主要思想也是把所有可能的分组都计算一遍。然后寻找最佳的结果。 R中可以通过maxstat来实现。
5 利用分类树来划分
该方法是基于“熵”的概念,对要划分的连续变量的每一个值进行划分,然后计算熵的降低程度,最后找的一个熵降低程度最大的划分值,将其作为cut-off值。R中可以通过rpat来实现。
6聚类分析
之前的方法都有一个条件即必须有一个明确的确定的结局,这样根据结局对自变量进行划分,通常将这些情况称为有监督的。但是如果我们没有结局变量的时候,这样就需要用到的聚类分析。
有的聚类算法需要在划分前指定拟划分的类别数如:K-means、SOM法,有的则不需要如:层次法。
总体的原则:保证划分后各类别之间的距离尽量远,类内的距离比较近。
4.6 什么是虚拟变量/哑变量
虚拟变量(dummy variable)也叫哑变量,虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。
(1)虚拟变量主要用于多分类自变量与因变量是非线性关系的时候。
(2)优点:当多分类自变量与因变量是非线性关系的时候,虚拟变量可以更真实的展示二者之间的关系。
(3)缺点:把一个多分类变量转换为虚拟变量后,自变量数目会增多,如果我们的样本量不是很大,那么自变量的增加会导致估计结果不稳定。
(4)虚拟变量的参照量的设置主页根据研究目的和专业,但要注意参照组的样本量不要太小,否则会使估计结果不稳定。
(5)如果我们的虚拟变量的结果不一致,应该把所有的虚拟变量的结果展示出来,而不是只展示有统计学意义的哪一个。
第5章:如何展示你的数据
定量资料的统计描述指标:
均数和中位数——展示数据的集中情况
标准差和四分位数间距——展示数据的分散程度
百分位数、标准化Z值——描述相对位置
定性资料的统计描述指标:主要由率、比例等。
5.1均数和中位数
均数:数据之和除以例数
中位数:把数据从小到大排序后位于中间的那个数
均数和中位数——展示数据的集中情况
正态分布的数据可以用均数来描述,偏态分布的数据最好用中位数来描述
二者之间的位置关系,如下:
5.2 方差和标准差——变异的度量
变异是统计学的基础,方差和标准差是测量变异最常用的两个指标。
方差是一个分布中取值离散程度的统计平均数。计算方法是把每一个取值减去平均值得到离差值取平方,然后把这些离差平方项全部加起来,再除以分布中的取值的个数。
标准差是一个分布中单个取值与均值之间的典型或平均离差。计算方法是把方差开平方。
SAMPL规范建议,对于正态分布的资料,建议用“均数(标准差)”的形式进行统计描述。
5.3自由度——你有多少自由活动的范围
自由度:计算统计量时能够自由取值的个数,一般用df来表示。
为什么样本的自由度为n-1?简单来说,n个样本,如果在某种条件下,样本均值时先定的,那么就只剩下n-1个样本的值是可以变化的。
不同的统计方法中,自由度都不一样,但基本原则都是:每估计1个参数,就需要消耗1个自由度。
(1)在单样本t检验中,因为只需要估计一个参数,所以自由度为n-1
(2)在两组比较的t检验中,因为需要估计的参数有两个,所以自由度为n1+n2-2
(3)在多组比较的方差法分析中,当有k个组时,就需要估计k个组的均数,所以自由度为(n1+n2+n3+....+nk)-k
(4)在回归分析中,如果有m个自变量,待估计的参数就有m+1(m个自变量加一个截距项)个,所以模型的F检验的自由度为n-(m+1)
5.4百分位数——利用百分位数度量相对位置
相对位置的度量主要有两个指标:百分位数、标准化Z值
极差:第100百分位数和第0百分位数之差
下四分位数:第25百分位数(用Q1表示)
上四分位数:第75百分位数(用Q3表示)
四分位间距:Q3-Q1
中位数:第50百分位数
如果数据呈偏态分布,一般建议用“中位数(Q3-Q1)”的形式进行统计描述
箱线图:
上下的两个须子分别是“上四分位数+1.5*四分位数间距”和“下四分位数+1.5*四分位数间距”,如果数据没有那么大的值,那么上下的两个须子分别是最大值和最小值。箱体中间的实线代表取值分布的中位数。
5.5利用Z值度量相对位置
Z值(标准化)的计算公式为(x - 均值)/标准差。数据一旦标准化,就都成了以0为均数,以1为标准差的标准正态分布。
Z值反应了某个值x偏离均数的标准差的倍数。
Z值的两种用途:
(1)比较不同单位的指标。通过Z值的转换比较不同单位那个大那个小。
(2)判断异常值。一般而言,在标准分布中大于3倍的数据可以定义为异常值。(只适用于正态分布,偏态不行)
5.6谈一下比例和率
比例(proportion)是一个静态的指标,说明的是在一个群体中,某种状态所占的百分比,如本节的例子中,百岁老人中不经常锻炼的比例、男性的比例、喜欢吃腌制品的比例。
率(rate)则更像一个动态指标,反应的是不同特征的人群中出现某种结局的百分比。
5.7在文章中如何正确展示百分比
百分比展示的原则是:每个分组变量内的合计为100%。
第6章:寻找失踪的运动员——中心极限定理
6.1中心极限定理针对的是样本统计量而非原始数据
中心极限法则的理论含义是:假定有一个总体数据,如果从该总体中多次抽样,那么理论上,每次抽样所得的统计量(均数)与总体参数(均数)应该差别不大,大致围绕在总体参数为中心,并且呈正态分布。
(1)样本统计量是以总体参数为中心呈正态分布
(2)每次抽样的样本量越大,根据样本均数再次计算出的均数越接近总体均数。而且,每次抽样的样本量越大,分布越集中。
(3)无论总体是什么样的分布(正态的、偏态的、均匀的),根据上述过程进行多次抽样,样本统计量始终是呈正态分布,尤其是在每次抽样的样本量较大的时候。
6.2样本量大于30就可以认为是正态分布了吗?
不可以
首先中心极限定理针对的是样本统计量而非原始数据,它说无论总体是什么样的分布(正态的、偏态的、均匀的),从原始数据中多次抽样,如果每个样本中的例数大于30,那么这些统计量的分布接近正态。
而对于某些原始数据,即使例数有成千上万个,依然是不服从正态分布的。比如某些检验指标、住院费用等。
第7章:从“女士品茶”中领会假设检验的思想
7.1女士品茶的故事
7.2零假设和备择假设
零假设:一般是想推翻的,用Ho表示,通常为组间差异为0、两个变量的相关系数为0、回归系数为0等。
备择假设:一般是想证实的,用H1表示,与零假设是对立面。
如何验证?,最常用的的是经典统计方法,根据我们事先做出的假定,利用收集到的数据计算一个统计量。通俗地说,这个统计量反映了距离我们所做的假设有多远,离得越远,越说明假设不可靠,离得越近,说明假设越可靠。
7.3假设检验中的两种错误
(1)I型错误:又称为假阳性错误,I型错误:又称为假阴性错误,二者之间此消彼长,I型错误增大II型错误减少。所以当我们提高标准时,可以降低假阳性率,但同时会提高假阴性;同样如果降低标准,则可以降低假阴性,但同时会提高假阳性率。这两种错误在不同的角度,重要性不同,根据我们的研究目的选择是提高标准还是降低标准。
(2)目前一般把I型错误设为0.05,II型错误设为0.1或0.2,把握度设为0.8。
(3)把握度越高,说明有更多的把握做出有意义的统计学结论。当我们文章的结果为阴性时,可以计算一下把握度,如果把握度很低,则说明可能是样本不足导致无法检验出阳性结果。
7.4 P值的含义
有些人认为P值是零假设的正确率,P值越小,零假设越不正确。这是一种非常错误的理解,因为我们无法说零假设正确或错误的概率有多大。
实际上,P值是关于数据计算结果的概率,在零假设的前提下,计算出至少这么大的统计量,这种情况有多大可能是偶然发生的。
7.5为什么P值小于0.05(而不是小于0.02)才算有统计学意义
P值是由统计学界最牛的人Fisher老先生提出并推动的,这来源于他以及以后由奈曼和皮尔逊发展的假设检验思想
当P值小于5%认为是小概率事件,在统计学上就认为不大可能发生。
(1)在正态分布中,我们以偏离均值的2倍标准差作为有无统计学显著性的依据。而在正态分布中对应的2倍标准差的概率为0.046,不容易记住,因此没有取2倍标准差,而是取1.96倍标准差,它的对应的概率为0.05,更容易记忆。
(2)虽然我们可以设定界值更小,这样可以降低假阳性率,但是同时却容易增加假阴性率。
(3)P值的大小与差别大小没什么关系,而是跟样本的大小更有关。
7.6为什么零假设要设定两组相等而不是两组不等
假设检验是在零假设成立的前提下,采用反证法,通过数据证明零假设是错误的。
我们计算的样本均数、标准差都是固定的,唯一需要确定的就是这些样本统计值与零假设之间的距离, 如果零假设无法确定,也就无法确定偏离多远。所以在假设检验中零假设中的参数要为某个确定的值,而不是不等于某个值。
第8章:参数估计——一叶落而知秋
参数估计:根据样本统计量估计总体参数
参数估计的两种形式:a 点估计——准确但未必可靠 b区间估计——可靠但不精确
8.1点估计
这种方法就是计算样本均数、方差等,作为总体均数、方差等的估计值。
8.2最小二乘估计
最小二乘估计:主要用于线性回归的参数估计,就是求一个使得实际值与模型估计值之间的差值达到最小的值,将其作为参数估计值。
最小二乘估计主要由两种方式:
(1)最小平方和法:将每一个距离求平方后再求和
(2)最小绝对值法:将距离绝对值化再求和,也就是求绝对值的和
8.3最大似然估计
参数已知实验结果发生的可能性(概率)
实验结果已知参数的可能性(似然)
最大似然估计:是一种点估计,哪一个参数估计值能够最大可能的导致当前出现的数据。
8.4贝叶斯估计
贝叶斯估计:是一种基于先验信息的一种估计方法。在经典的频率统计中,参数是固定的,样本统计量是随机变量。而在贝叶斯统计中,认为参数也是随机变量。
贝叶斯公示一般可以表示为:
(1)若标准似然比>1,则先验概率得到增强,A的发生会增大事件B发生的可能性
(2)若标准似然比=1,则先验概率无变化,A的发生对事件B发生的无影响
(3)若标准似然比<1,则先验概率得到削弱,A的发生会降低事件B发生的可能性
第9章:置信区间估计——给估计留点余地
9.1置信区间的理论和实际含义
理论上来讲,95%置信区间的意思是,如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个95%置信区间。那么我们期望会有95%的置信区间包含总体参数。
对于一个样本中计算的95%置信区间,其确切含义为“有95%的信心认为该区间包含了总体参数”
9.2置信区间与P值之间的关系
置信系数:置信区间的前缀数字,一般为95%。置信系数越大,所得的区间越宽,置信系数越小,所得的区间越窄。
一般来说,样本量越大,计算的置信区间越窄,精度越高,此时P值也会越小。
与P值之间的关系:
相同点:二者都可做出相同的统计学结论
不同点:置信区间既有P值的统计学意义,还有P值反映不了的实际意义。P值的大小与差别大小没什么关系,而是跟样本的大小有关;而置信区间还可以提示与无效假设的参数偏离有多远=
9.3利用标准误计算置信区间
如果我们要对一个总体进行多次抽样,每一次抽样都可以得到一个均值,然后再计算着几个均值之间的标准差,那这个标准差就是标准误。它反映的是每次抽样样本之间的差异。如果标准误小,则反映了多次重复抽样得到的统计量差别不大,提示抽样误差较小。
95%置信区间:“参数估计值+1.96*标准误”
9.4 利用Bootstrap法估计置信区间