第一章 统计学入门
统计指整理,总结并解释信息的一系列数学过程。(从混乱中找出秩序;能够被科学团体认识及理解的标准化技术)
科学研究通常开始于一个特殊群体的普遍问题。在统计学中,研究者希望研究的整个组被称作总体。(通常很大;被研究的总体应该总是非常明确的)
样本是从一个总体中选择出来的个体的集合,通常在研究中被期望代表总体。
研究开始于关于总体的一个普遍问题。为了回答这个问题,研究者研究了一个样本,然后把结果从样本推广至整个总体。
在描述数据时,我们必须区分数据是来自于总体还是样本。一方面,描述总体的特性——如总体平均数——被称为参数;另一方面,描述样本的特性被称为统计量。
通常,每个总体参数都与一个样本统计量相对应,本书的一大重点就是讲解这种总体参数与样本统计量的对应关系。
描述性统计是把原始数据组织并总结成更易处理的形式的技术。(表或图;平均数等)
推论统计是允许我们研究样本,然后将研究结果推广至样本来自的总体的技术。
通常,研究者使用样本统计量作为推论总体参数的基础。然而,使用样本产生的问题是样本只提供了关于总体的有限信息。虽然样本通常可以代表他们来自的总体,但我们不期望一个样本能够给出关于整个总体的完美精确的描述。通常,在样本统计量和相应的总体参数间存在一些差异。这种差异被称为取样误差。
取样误差的基本理念是:样本统计量根据样本的不同而变化,并且通常与其相应的总体参数不同。
推论性统计的目的是区分描述性统计中的统计量的差异(平均数等)是由偶然因素(取样误差)造成的,还是实验控制造成的。
科学倾向于发现宇宙间的秩序。并且他们能够观察并记录这种规律性的变化。能够变化并且具有不同值的事物被称为变量。
变量可以是因个体而变化的特性(高度,重量,性别等),也可以是可变化的环境条件(温度,时间等)。
不会变化或改变的值被称为常量。
常量是一个特性或条件,他不会变化,并且对每一个个体都是相同的。
在一项研究中,通常用保持常量来控制变量。
一些研究只是简单描述了个体变量的自然状态(调查),然而,很多研究需要检验变量之间的关系。为了建立关系,研究者必须做出观察——也就是说,对于两个变量的测量。这些得到的测量被归入两种数据结构中,来帮助区别不同的研究方法以及不同的统计方法。
测量每个个体的两个变量:相关法
比较两组或多组测量:实验法或非实验法
混淆变量——被试变量、环境变量
控制方法:随机分派、匹配、将变量控制为常量(只用10岁儿童)
注意,在实验中,事实上只测量了一个变量。你应该认识到这与相关法进行的研究是不同的。在相关研究中,两个变量都被测量了,数据由每个个体的两个不同分数组成。
通常,实验将被试没有接受任何处理的条件下得到的被试分数与接受了处理的那些被试分数比较。这类研究的目的是通过证明处理条件的分数与非处理条件的分数之间的不同来说明存在处理相应。(实验条件、控制条件)
非实验或准实验——根据被试变量(性别等)划分组、接受治疗前与接受治疗后比较(无法操纵时间)
很多被行为科学家研究的变量,事实上只是用于帮助描述并解释行为的假设概念。(构念)因为它们不能被直接测量,因此它们是假设的。
虽然像智力这样的构念是一种内部特性,不能被直接观察。但是,我们可以观察或测量一些代表这些构念的行为。外表行为可以被用于得出构念的操作定义。操作定义用可以被观察并测量的行为定义了构念。
操作定义是一个测量过程(一系列操作),它测量了外部行为,并使用测量结果作为定义和对假设的构念的测量。注意,操作定义有两个部分:首先,它描述了一系列测量构念的操作;其次,它用测量结果定义了构念。
离散变量有不同的,不可分割的类别组成。在两个相邻的类别之间不存在其他的值。
离散变量通常限于整数,也可能由性质上不同的观察组成。
对于连续变量,在任意两个观察到的值之间都存在着无限多个可能的值,一个连续变量可以被分割为无限个小数部分。
连续变量的其它两个因素:
1.当测量连续变量时,两个不同的个体很少会得到完全一样的测量。
2.当测量连续变量时,每个测量类别事实上都是一个区间,需要用边界来定义。
实限 X = 70kg 上实限 69.5 下实限 70.5
收集数据要求我们测量观察,测量包括了将事件分类(定性测量)或使用数字描述事物的大小(定量测量)。
四种不同的测量量表:
称名量表:称名量表的测量允许我们确定 两个个体是否不同,但是不能分辨这种不同的方向和大小。
虽然称名量表的类别不是量化值,但它们有时候可以用数字代表。
顺序量表:由一组按顺序排列的类别组成,顺序量表的测量将观察的对象按大小排序。
你可以用顺序量表的测量确定两个个体是否相同,并确定这种差异的方向。然而,在顺序量表中你无法确定两个个体间的差异大小。另外,顺序量表经常被用于测量难以被赋予数字值的变量。例如,人们可以列出喜欢的食物,但是可能不能够解释他们喜欢巧克力冰淇淋多于牛排多少。
等距量表由排序的类别组成,这些类别都是完全相同的大小区间,在等距量表中,量表上数字之间的差异等价于量上的差异。然而,大小的比例没有意义。(摄氏度)
等比量表是一种等距量表,并且有一个绝对零值。使用等比量表,数字的比例可以反应量上的比例。(高度,重量)
等距量表具有随意零点。也就是说,零值可以是量表上任意方便使用的位置。特别是,零值并不代表被测量的变量不存在。(0摄氏度)
等比量表的零点不是任意决定的,而是一个有意义的值,代表了没有测量的变量(完全不存在)。绝对的、非任意的零点的存在意味着我们可以测量变量的绝对值。也就是说,测量到零点的距离。这使得我们可以比较测量的数据间的比值。
量表的类型非常重要,因为它们决定了使用或不能使用哪种统计。
N 总体数量 n 样本数量
数据不同的分布方式,对其中心的定义存在着不同的看法。为了处理这些问题,统计学家发展出了3种测量集中趋势的不同方法:平均数、中数以及众数。
为了确定对于一个特定分布哪种测量是最好的,你应该记住,集中趋势的一般性目的是找出单一的最具有代表性的数值。这三种测量中的每一个都用于一个特定情况。
总体的平均数用μ表示,一个样本的平均数由M或x̄。
在任何分布中,一些个体将会靠近平均数,而一些则相对离平均数较远。标准差提供了对到平均数距离典型的或称标准的测量。
除了描述整个分布外,标准差也解释了单个数据。例如,我们知道一个智商为110的人是处于平均数以上,但并不是特例;因为标准距离为σ = 15,高出平均分数10分不能算是极端值。
平均数与标准差是用来描述一组数据的最常用的值。当看到这两个描述统计的时候,你应该能够想象出整组数据。
相关
相关的应用: 预测、效度、信度、 理论验证
皮尔逊相关测量两个变量间线性关系的程度和方向。
在采用相关时需要考虑的几点:
- 相关无法解释两个变量之间的因果关系。
- 相关的值受数据所呈现的全距的影响。
- 被称为奇异值的一个或两个极端数据对相关值具有巨大影响。
- 相关不能解释称为比例,1.00表示X 和 Y存在100%完全可预测的关系,但0.5的相关并不表示你可以做50%的精确的预测。(预测的比例只是整个变异性的25%)
无论何时,当计算出的相关无法代表整个可能的全距值时,你应该谨慎地解释相关。例如,假设你对智商与创造力感兴趣。如果你选择的样本是和你一样的大学生,你对数据可能只代表了智商分数的限定域(很可能是从110到130)。在这个限定相关域中的相关与来自智商分数全距的相关是完全不同的。
为了保险起见,你不应该将相关推论到样本以外的范围。如果要得到能够准确描述总体的相关,X 和 Y 的数据应该分布在较宽泛的全距中。
数据中仅仅一个奇异值就可以对得到的相关值有巨大的影响。奇异值解释了为什么你总是应当参考一下散点图而不是简单地根据相关的数据来加以解释。如果你仅仅“关注数值”,你可能会忽略一个极端的数据扩大了相关这个事实。
相关经常被用于预测。相关的平方(r²)测量了采用相关来进行预测的准确性。相关的平方测量了可由X和Y的相关关系解释的数据变异的比例。有时它被称为决定系数。
定义: r²的值被称为决定系数,因为它测量了一个变量的变异中由另一个变量的变异而决定的概率。例如,一个相关为 r = 0.80(或 - 0.80)意味着 Y 变量中 r² = 0.64(或64%)的变化是由其和X的关系决定的。
r² 值为0.01表明效应小或相关低,r² 值为0.09表明中等相关,r² 等于0.25或更高则表明高相关。
如何用样本的相关作为对相应的总体相关进行假设检验?
通常,样本与它来自的总体不是一样的,可能样本统计量与对应的总体参数会存在一些不同(取样误差)。因此,你需要意识到样本相关与它代表的总体相关存在一些误差。这个事实的意义在于,即使总体之间不存在相关(ρ = 0),你仍可能获得一个非零相关。对于小样本来说尤其是这样。
当两个变量间存在不完全相关时,一个变量的极端分数(高或低)与另一个变量的非极端分数(更趋向于平均数)相对应。这种现象就被称为趋中回归。
斯皮尔曼相关
首先,斯皮尔曼相关用来测量两个顺序量表的变量。
其次,当研究者想测量X和Y之间的稳定的一致性,而不考虑数据的形式时,可以采用斯皮尔曼相关。在这种情况下,原始分数被转换成顺序,然后采用斯皮尔曼相关来测量这些顺序的关系。另外,当两个变量存在一致的单方向关系时,这种关系被称为单调相关关系。因此,斯皮尔曼相关被用来测量两个变量间单调相关关系的程度。
当把数据变成等级时,数据中一致的关系就形成线性相关。因此,如果你想测量一组数据的一致关系,你可以把数据转换成等级,然后采用斯皮尔曼相关来测量排序后的数据。数据间关系的程度就是对原始数据关系一致程度的测量。
其它相关的测量
点二列相关被用于测量两个变量的相关,其中一个变量是一般的数值变量,而另一个变量则只有两个值。只有两个值的变量被称为二元变量。
要计算点二列相关,二元变量必须转换成数据变量,将其中一类赋值为0,而另一类赋值为1。然后再使用一般的皮尔逊相关来计算转换后的数据。(我们习惯使用数值0和1,但是任意两个不同的数字都是等效的,而且不会影响相关大小。)
从某种角度讲,点二列相关与独立测量中假设检验测量的是同样的东西。
但是,r² 完全是由相关的大小而决定的,但 t 值则受相关大小以及样本大小的影响。虽然t 和 r² 相关,它们测量的是不同的东西。
当从每个个体测量到的两个变量都是二元变量时,两个变量的相关就称为 φ系数。
对 φ系数的计算要进行两个步骤:
- 将每一个二元变量转换成数值变量。将每一个变量的一种类型定义为0,而另一个定义为1。
- 采用常用的皮尔逊相关公式来计算转换后的数值。
(虽然 φ系数可用于测量两个二元变量之间的关系,但这种情况下更为常用的统计方法是卡方检验。)