原创作者:胡婧炜
作者简介:先后在美国马里兰大学、密歇根大学修读调查方法专业硕、博学位。曾任职于北大中国社会科学调查中心和社会研究中心,并在美国市场研究公司Westat、美国国家卫生统计中心担任过研究助理。全程参与了“中国家庭追踪调查(CFPS)” 等多个大型项目,擅长调查设计、实施与数据管理工作。
一、无应答与应答率
在问卷调查中,如果我们没有获得想要调查的人员的完整信息,这种情况便是无应答。
广义的无应答包括单元无应答(Unit Nonresponse)和项目无应答(Item Nonresponse)两类:如果一个指定需要作答的人员没有回答任何问题或绝大部分问题,我们称之为单元无应答;如果一个受访者在个别变量上没有作答,则属于项目无应答的情况。不过,当人们说到无应答时,大部分时候指的都是单元无应答,这也是本文讨论的范畴。
单元无应答的概念是在抽样调查的大背景下提出的,因为只有在抽样调查中,我们才能明确界定谁是指定/抽中的需要作答的对象(可以是个人、家庭或者机构,统称为“抽样单元”)。应答率则是指定/抽中的需要作答的对象中,最终完成作答的百分比。
在社会调查中,研究者们总是希望通过样本的特征可以准确推断出总体的特征。为此他们在抽样方法上绞尽脑汁,希望抽中的样本可以完美地复制(代表)总体。不过,试想一项调查中,即使最初抽选的样本完美地代表了目标人群,但如果抽中的对象大部分都没有完成调查,那最终获得的样本的代表性也会大打折扣。
应答率因此经常被用作衡量调查质量的一个指标。这种做法的优点在于简单、可操作性强、可比较。尽管很多研究认为这种做法存在缺陷(我们在之后的公众号文章中将继续讨论),然而应答率现在仍然是使用最广泛的一个评估调查质量的参考标准。
在实际操作中,计算应答率时我们将面临各种更为细致的问题。本文将以美国民意研究协会(American Association for Public Opinion Research,AAPOR)制定的标准为基础进行介绍,这也是目前最权威的计算应答率的方法。
二、联系结果的界定
计算应答率的第一步是记录各种联系结果并进行编码分类。所谓联系结果,即联系抽样单元并邀请其答题的结果状况。
所有可能的联系结果都可以分为四大类:完成访问、未完成访问、不符合访问条件、不确定是否符合访问条件四种情况。
1. 完成访问
这一类情况可以继续分为全部应答(Complete Interview)和部分应答(Partial Interview)。每项调查都应在最开始就明确界定什么是完全应答和部分应答,以及部分应答与中断应答(Break-off)的区别(后者属于未完成访问的情况)。
界定上述情况有三个最常使用的标准:a)所有适用问题被回答的比例;b)所有关键问题被回答的比例;和c)所有适用问题被问到的比例。
比如说在某项100道题的问卷调查中,可以设定总共回答了80题以上的为完全应答,20-80题的为部分应答,不到20道题的为中断应答即未完成访问;也可以设定回答了70%以上关键问题的为完全应答,50%-70%的为部分应答,50%以下的为中断应答;还可以混合使用不同的标准,如必须总共完成了80题,并且完成了100%的关键问题,才算做完全应答。
至于具体使用哪个标准、哪些问题算是关键问题,以及使用什么样的阈值,并没有明确的规定,需要研究者基于研究需求做出主观判断。
2. 未完成访问
这一类情况具体可细分为三类:拒访和中断应答、无联系、其他情况。
拒访和中断应答很容易理解。即已经联系上访问对象,确定符合访问条件,但是访问对象拒绝接受访问,或者在访问中途中止访问(且未达到上述的部分应答的条件)。
无联系指通过一些外部的线索确定了抽样单元符合访问条件,但无法联系上需要接受访问的人员,如:
在基于地址抽样的家户面访中,访员因为小区门禁无法接触到抽中的家庭户,或者家中总是没人,或者家中有人但指定的受访者不在家或者总是没空。
在基于随机数位拨号 (RDD)抽样的家户电访中,家中总没有人接电话。
在基于名单概率抽样的网络调查中,接受调查邀请的邮箱自动回复受访者目前在休假不能查收邮件。
其他情况指联系上了符合访问条件的对象,对方也没有拒绝访问,但无法最终完成访问的情况,如:
在基于地址抽样的家户面访中,访问对象有身体或生理上的疾病无法接受访问。
在基于RDD抽样的家户电访中,由于方言问题或者听力问题,与访问对象无法进行沟通。
在基于名单概率抽样的网络调查中,访问对象不识字。
3. 不符合访问条件
在调查中只有符合访问条件的抽样单元才是需要作答的对象,但在抽样时我们往往很难提前确定抽样单元是否符合访问条件,而只能在实际访问过程中通过一些外部的线索或者通过与抽样单元的直接联系才能进行界定。因此,在实际访问过程中,不符合访问条件也是一种可能出现的重要联系结果。具体如:
在基于地址抽样的家户面访中,抽中的地址是商业或者办公地址,或者抽中的地址是家庭户但已无人居住,或者家户中没有符合条件的应答人员(如家中全部是未成年人,而访问对象必须是成年人)。
在基于RDD抽样的家户电访中,号码是空号、号码不存在、号码错误、号码已停机,或者拨打的是办公场所的电话等。
在基于名单概率抽样的网络调查中,接受访问的对象在回答完筛选问题后被界定为不属于符合条件的受访者,或者接受访问的对象提交了多份问卷等。
4. 不确定是否符合访问条件
这类情况指既没有任何外部线索,也无法通过与抽样单元取得直接联系来判断抽样单元是否符合访问条件。比如:
在基于地址抽样的家户面访中,访员因为交通原因无法进入某个抽中地址所在的区域,无法判断该地址属于什么情况。
在基于RDD抽样的家户电访中,一个电话能够打通,但总是无人接听,访员也没有任何线索可以判定这是一个家庭电话还是一个办公电话。
在基于名单概率抽样的网络调查中,无法确定访问对象是否收到了访问邀请。
关于联系结果在不同场景下的更详细的界定方法可以进一步查阅AAPOR手册(Standard Definitions Report)。
三、具体的计算方法
在把每一个抽样单元的联系结果进行归类后,接下来我们就可以开始计算应答率了。
为了便于后续呈现应答率的计算公式,上述所有访问结果将用如下代码表示。(如下表)。
应答率的计算方法并不是唯一的,可以根据调查项目的需求来选择合适的应答率计算公式。简单来说,应答率计算中,分子是实际完成访问的抽样单元数,分母是符合访问条件的抽样单元数。不同计算方法之间的主要区别在于分子中对实际“完成访问”的标准是否严苛,以及不确定是否符合访问条件的人群是否应该计入分母,视作符合访问条件的抽样单元。在所有的计算方法中,不符合访问条件的抽样单元都应该排除在应答率计算的考虑范围外。
下面列出最常见的六种应答率的计算方式:
RR_1与RR_2:这两种计算方法是最严苛的计算应答率的方法,因为不确定是否符合访问条件的抽样单元全部被认定为符合条件的抽样单元,这时候分母达到了最大值。 RR_1相比RR_2更加严格,因为RR_2放宽了“完成访问”的标准,受访者完整或部分的完成问卷均被认定为完成了访问。
RR_1=I/(I+P)+(R+NC+O)+UE
RR_2=(I+P)/(I+P)+(R+NC+O)+UE
RR_3与RR_4:这两种计算方法在严苛程度上处于中间水平,它们只将不确定是否符合访问条件的抽样单元中的一部分认定为符合访问条件的抽样单元。同样,相比RR_3,RR_4将部分完成问卷的情况也认定为完成了访问。
RR_3=I/(I+P)+(R+NC+O)+eUE
RR_4=(I+P)/(I+P)+(R+NC+O)+eUE
其中,e =(I+P+R+NC+O)/(I+P+R+NC+O+IE),即已经明确了是否符合访问条件的抽样单元中,符合访问条件的抽样单元的比例。
RR_5与RR_6:这两种计算方式是最宽松的计算应答率的方法,所有不确定是否符合访问条件的抽样单元均被认为是不符合访问条件的抽样单元。这时分母达到最小值,应答率达到最大。
RR_5=I/(I+P)+(R+NC+O)
RR_6=(I+P)/(I+P)+(R+NC+O)
四、关于非概率调查
在非概率抽样的调查中,应答率的计算并不适用,因为应答率是基于概率抽样提出的一个概念,受访者应该是从一个既定的抽样框中基于一个已知的概率被抽取的,样本数据可以推断的总体是可明确界定的。
在非概率调查中,如通过在线样本库发放问卷链接的调查,如果邀请作答的人员可知的话,我们可以计算参与率(Participation Rate),即所有收到作答邀请的人员中,有效完成调查的人员的比例。参与率和应答率是不同的概念,不过它可以视作评估在线样本库活性的一个参考标准。
那么,在一个基于社交媒体或广告渠道发放调查邀请和问卷链接的网络调查中,如果我们把曝光量(即看到调查邀请和问卷链接的人数)视作计算参与率的分母的话,你们觉得参与率能达到多少呢?
ReferencesAAPOR. (2016) . Standard Definitions Report, 9th edition.
更多内容请移步至:www.surveyplus.cn
期待各位同行评论交流。