1.4 混杂因素 Confounding Factor
如图所示,X与Y之间没有关系。但是当我们未探测到Z因子的存在时,我们可能会认为X与Y之间存在关系,而此时Z就被称为混杂因素。
举例而言,我们发现每个月冰淇淋的销量与每个月溺死的人数高度相关,但是显然我们知道这两者之间并无关系,它们均由第三个变量——时间所调控。在夏天,天气炎热,吃冰淇淋和游泳的人数量增加;在冬天,天气寒冷,吃冰淇淋和游泳的人数量锐减。
那么要如何控制混杂因素呢?
(1)Control:研究人员先确定潜在的混杂因素再进一步设计研究,排除这些混杂因素的干扰
Blinding盲选-安慰剂效应
单盲实验:不告诉患者他们服用的是药还是安慰剂
双盲实验:不告诉医生和患者他们所使用的是药还是安慰剂
Blocking分块(分组):当因素无法控制,例如性别效应
研究人员可以比较每个块(组)内的效果/比较块(组)间的效果,以消除这种干扰。
(2)Randomization:为了能够控制我们未能鉴别考虑到的混杂因素,研究者通常会使用随机分配的方法进行实验以削弱这些混杂因素的干扰。
(3)Replication:数据越多,结果则越精确。另外,如果其他人能够重复研究的结果,则结论的准确性就更强。因此,在有限的时间和金钱条件下,研究者会尽可能地重复实验、扩大样本。
1.5 抽样方法 Sampling methods
1、Convenience sampling 简单抽样
你可以获取数据的最直接、简单的方法,但往往这样获得数据质量较差。比如你想要了解人们对待‘death penalty’的态度,随意问路人。
2、Random sampling 随机抽样
任何一个集合中的成员都有相等的被选中的概率。
3、Simple Random Sample 简单的随机抽样
为总体中的每个个体分配一个数字,然后使用一个随机方法从选择n个数字,n为样本数量。
4、Stratified Sample 分层抽样
从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取个体。
5、Cluster Sample 整体抽样
我们把一个总体分成不同的子总体,但是子总体的大小并不均一。每一个个体属于且仅属于其中的某一个子总体。此时,我们随机抽取子总体中n个,将这n个子总体的全部个体作为样本。
6、Systematic Sample 系统抽样
先将总体的全部单元按照一定顺序排列,然后选择每个k(k为整数)的倍数的个体。如选择第3、6、9....个个体
1.6 处理数据时出现的偏差
当我们想要研究关于总体的某些特征时,我们常常会先进行抽样,根据样本的统计量进行推断。但是由于抽样偏倚等,估计可能是不准确的,从而导致推断是错误的。因此,要求我们要批判性地思考和分析数据和统计结果。
1.6.1 抽样偏倚
1、Voluntary Response Samples 自愿反馈样本
这种情况下,通常不是研究者选取样本,而是人们主动选择成为了样本。
比如,互联网上进行的一些投票,往往只有关注这项投票事项的人才会参与到投票中,而不关心的人不会加入,因此最终的投票结果存在一定的偏倚。
2、Small Samples 小样本
当样本过小时,往往参数的估计精确度较低。
举一个极端的例子:通过民意调查了解人们希望看到哪个总统当选,然而参与调查的义工仅有2人,那么这个结果显然是不太准确的。
3、Loaded Questions 诱导性问题
当你的调查中的问题问法并不客观,而存在一定的引导性,那么最终的结果也会存在一定的偏差。
比如:Do you support a woman’s right to choose an abortion VS Do you support aborting a fetus which would otherwise grow into a healthy human being? 这两种问法显然是有所差异的。
**4、Non Response 没有回复 **
在调查中,我们常常会遇到当某个个体被选为样本时,他并没有给予有效、完整的答复,并没有收集到关于他的信息,从而也会造成最终的结果存在一定的偏差。
5、Missing Data 丢失数据
可能是由于没有答复,也可能是由于实验设计(比如某些问题人们不愿意回答)或者是一些偶然因素导致数据丢失
1.6.2 误导/错误的结果 Misleading and/or erroneous results
这类是一种特殊的偏差,由于某种目的或者其他因素,造成最后的结果产生一定的误导甚至本身就是一个错误的结果。
1、误导性图表 Misleading graphs
房地产商为了说明房价大幅上涨可能会调整坐标轴的单位距离,产生房价飞涨的错觉。
2、百分数 Percentage
百分比经常被人们滥用。
比如:A clothing store advertised that clothes that were currently on sale for 25% off would now be discounted by an additional 50% off. Sounds like a total of 75% off.
However, the 50% off doesn’t include the 25% already discounted before, making the final discount be only a little over 60% off.
3、相关性与因果性 Correlation vs. causality
两个变量相关并不意味着它们存在着因果关系。
比如,之前所提到的每月冰淇凌的销量和溺死的人数。
4、不完整的信息 Partial pictures
比如一家电视公司告诉你,‘我们所有的电视机过去50年都在正常使用’,你显然会认为这家公司制造的电视质量很好,但是如果实际上,这家公司仅仅生产制造了6个月的电视机,你会怎么想呢?