众所周知, 我有很多医生朋友. 他们经常需要做一些敏感问题的调查, 比如"你是否有婚外情"或者"你是否是个弯弯". 不要问为什么, 问就是为了写论文.
这些敏感问题的肯定回答会让被调查者非常难堪, 从而导致他们拒绝或者不诚实地回答问题. 事实上, 在发出问卷调查时, 我的医生朋友非常担心被打爆狗头.
随机化回答技术
在跟我学过统计学的老婆聊这个问题的时候, 她说可以用采用随机化回答技术解决这个问题.
所谓的随机化回答技术, 就是指在调查中使用特定的随机装置, 使调查者以预定的概率回答问题. 这一技术可以最大限度的保护被调查者的隐私, 从而取得被调查者的信任. 举个简单的例子, 比如调查某地婚外情的比例时, 可以给被调查者一个硬币, 让他避开调查人员自己抛硬币, 正面向上则回答问题"你是否有过婚外情?", 反面向上则回答"你的生日是否在 7 月 1 日以前?". 因为调查人员不知道回答的是哪个问题, 所以可以更容易的取得被调查者的信任.
我们这里主要介绍两种最简单的随机化回答技术, 即沃纳模型和西蒙斯模型.
沃纳模型
沃纳模型是由 Warner 在 1965 年提出的, 该模型向被调查者提问两个与敏感性特征相关但结果完全相反的问题. 假定我们想调查"有过婚外情行为"的人所占的比例 , 则可以设计下面两个问题:
- 问题1:你是否有过婚外情行为.
- 问题2:你是否从没有过婚外情行为.
同时, 调查者准备一副牌作为随机装置, 这副牌中中有比例 的牌标有数字 , 其余比例为 的牌标有数字 , 除此以外, 牌没有其它的区别. 对 个被调查者中的每一个人重复以下过程: 被调查者从洗好的整副牌中随便地选取一张, 记下牌上的数字, 数字不要让调查人员者看见. 如果被调查者抽到的牌标有数字 , 他用"是"或"不是"回答问题 1;如果抽到的牌标有数字 , 则回答问题 2. 调查者只能获得"是"和"不是"的答案, 并不知道被调查者回答的是哪个问题. 然而, 即使只知道"是"的回答数, 调查人员也能估计出来. 为了方便, 我们引进下面的记号:
用全概率公式, 我们可以写出访问者得到回答"是"的概率:
使用用表格里的记号, 可以得到等式:
假设总共有个人回答"是", 并用近似, 可以很容易地得到的估计值
西蒙斯模型
在沃纳模型中, 两个问题都涉及到了敏感问题, 仍然可能会引起人们的戒备. Simmons
改进了沃纳模型, 提出了西蒙斯模型(也被称为不相关问题模型). 该模型的基本思想是:向被调查者提出一个无关紧要的问题, 被调查者可能在感情上会觉得更安全, 因为作出回答时不能向访问者泄漏更多的信息. 即在"匿名状态"的情况下, 使用两个互不相关的问题, 一个与敏感问题相关, 另一个是非敏感问题, 调查人员会得到更多的信任. 在西蒙斯模型中, 被调查者随机地选取下列问题中的一个回答:
- 问题 1:你是否有过婚外情行为?
- 问题 2:你的生日是在7月1日以前吗?
其中问题 2 也可以换为其它非敏感问题, 只要概率 是已知的即可, 比如
- 问题 2a:你是8月份出生的么?
- 问题 2b:你的身份证最后一位是奇数么?
与沃纳模型一样, 调查者需要准备一随机装置, 每个调查者都根据随机试验的结果回答相应的问题. 调查者仅能得到"是"与"不是"的答案, 但却能够用这些数据估计出来.
为了说明这一点, 我们引入下列符号:
根据全概率公式, 我们可以得到:
使用表格里的符号,可以得到等式:
假设总共有个人回答结果为"是", 并用近似, 就可以得到的估计值
随机化回答法技术的使用
抽样调查的策划工作包括一些不同的环节. 这些环节包括调查的准备、调查的实施、数据收集和最后的解释数据. 除了问题的设计之外, 耐心地给被调查者解释也是至关重要的. 被调查者了解无人知道他回答的哪个问题后, 对敏感性调查的抵触会更低.
此外, 随机装置应尽可能简单. 在试验开始前应允许被问者检查该装置. 检查具有双重目的:一是使被问者相信装置里没有做手脚, 二是使被问者明白怎样使用该装置.
欢迎关注公众号:数学知识派