统计测量任务六
名词解释
1.点估计:当总体参数不清楚时,用一个特定值(一般用样本统计量)对其估计。
2.区间估计:是指用数轴上一段距离,表示未知参数可能落入的范围。
3.置信区间:是指在某一置信度时总体参数可能落入的区间。
4.置信度:(1-α),也称置信水平,指所估计的总体参数落入置信区间的可靠程度。
简答
一,简述众数的概念,并指明在哪些情况下适合使用众数作为集中量数。描述统计-集中量数
答:众数是指次数分布中出现次数最多的那个数的数值。它也是一种集中量数,用来代表一组数据的集中趋势。众数可以通过观察的方法直接得到,也可用积分的方法求出。众数不够稳定,易受样本变动的影响,但较少受极端数据的影响,反应不灵敏。因此在以下情况下,可以使用众数:
1)当需要快速而粗略的寻求一组数据的代表值时
2)当一组数据出现不同质情况时
3)当次数分布中有两极端数据时
4)当次数分布中出现双众数时,也多用众数表示数据分布形态
二、辨析标准差和标准误的概念。描述统计(差异量数)及推论统计(参数估计)
答:1)标准差是反映一组数据离散趋势的量数,它等于一组数据方差的算数平方根。
标准差=方差的平方根S = √∑(𝑋−𝑋 ̅)2 /𝑛
2)标准误是样本平均数分布的标准差,以示与数据分布的标准差相区别。标准误用来衡量抽样误差。标准误越小,
表明样本统计量与总体参数值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
若总体方差已知,标准误=总体标准差/样本数量的平方根
若总体方差未知,标准误=样本标准差/样本数量的平方根
三、变异系数的公式是什么?它主要有哪些应用?描述统计-差异量数
答:变异系数是一组数据标准差与其均值的百分比。变异系数的公式为:CV=S/X杠*100%=(标准差/平均数)*100%
其中CV为变异系数,S为标准差,X杠为平均数
变异系数的应用:1)用于同一团体不同测量间变异的比较。例如相同班级不同科目考试时成绩变异的比较
2)用于不同团体间进行同一测量时变异的比较,当各团体间水平相差过大时,变异系数可用于团体间变异的比较。例如不同年级接受同一种试卷测试时成绩变异的比较。
四、解释相关系数时应注意什么?描述统计-相关系数
答:1)相关系数是一个指标值,它表示两个变量之间的关系程度。相关系数不是等距的测量值,在比较相关程度时,不能用倍数的关系说明,只能说绝对值大者比绝对值小者相关更密切一些。
2)相关系数绝对值的大小表明两列测量数据相关关系的强弱程度。数值越大,相关程度越强。
相关系数为-1.00或+1.00,说明两个变量之间为完全相关。
相关系数在-1.00至+1.00之间(0及其邻近值除外),说明两个变量存在相关关系但不完全相关。
相关系数在0及其邻近时,说明两个变量不相关。
3)相关系数的符号的不同表示相关关系的方向不同。
相关系数为正称为正相关,表示两变量的变化方向一致;相关系数为负称为负相关,表示两变量的变化方向相反。
4)相关关系不是因果关系,发现相关关系也不是确定因果关系。相关分析只回答有无关系,不能确定因果。
5)当两个变量之间的关系受到其他变量的影响时,两者之间的高强度相关有可能是一种假象,可以用协变量分析法设法排除或控制那些变量的影响效应。
论述
一、试述哪些测量和统计的原因会导致两个变量之间的相关程度被低估?
基础概念(数据类型)及描述统计(相关系数)
1)测量原因:测量方法的选择、两个变量测验材料的选择和收集、测量工具的精确性、测量中的误差、测验中主被试效应、测量信度和效度、测验分数解释等。
2)统计原因:(1)全距限制问题会导致低相关现象。指相关系数的计算要求每个变量内各个分数之间必须有足够大的差异,数值之间必须有显著的分布跨度或变异性。(2)没有满足计算相关系数的前提假设也会低估相关系数。比如用皮尔逊相关计算非线性关系的两个变量间的相关系数。
二、试述心理与教育统计中常用的概率分布及其特点。推论统计-数据分布
答:1)根据随机变量是否具有连续性划分为离散分布与连续分布。离散随机变量的概率分布称作离散分布,可用分布函数加以数量化描述。最常用的是二项分布。连续随机变量的概率分布称作连续分布,即测量数据的概率分布,它用连续随机变量的分布函数描述它的分布规律。最常用的是正态分布。
2)根据分布函数的来源划分为经验分布与理论分布。经验性分布是指根据观察或实验所获得的数据而编制的次数分布或相对频数分布,作为推论总体的依据。理论性分布分为两种,一是随机变量概率分布的函数-数学模型,二是按某种数学模型计算出的总体的次数分布。
3)根据概率分布所描述的数据特征划分为基本随机变量分布与抽样分布。常用的基本随机变量分布有二项分布与正态分布。抽样分布是样本统计量的分布,统计量是由基本随机变量计算而来,又称为随机变量函数分布,如样本平均数分布、两样本平均数差异分布、样本方差分布等。基本随机变量分布与抽样分布是统计推论的理论依据。
三、正态分布的标准差有何统计意义,在统计检验中为什么会用到标准差?推论统计-数据分布
答:1)标准差是表示一组数据离散程度的量表,标准差越大,表示数据越分散,越小则表示数据越集中。正态分布随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。如果平均数相同,标准差不同,这时标准差大的正态分布曲线形式低阔,标准差小的正态分布曲线形式高狭。
2)在正态分布曲线下,标准差与概率(面积)有一定的数量关系。即在正态分布中,平均数上下各延伸一个标准差,包括总面积的68.26%,平均数正负1.96个标准差之间,包含总面积的95%,平均数正负2.58个标准差之间,包含总面积的99%,落在3个标准差范围之外的数据视为小概率数据,可看作异常值,作为取舍依据。
3)在统计检验中,检验的基本思想是带有概率性质的反证法,这里假设推断的依据的就是小概率事件原理,该原理认为“小概率事件在一次观察中可以认为基本上不会发生”。因此可以利用标准差与概率的关系,通过上述原理进行推论。