辛普森悖论(Simpson's Paradox)是统计学里一个很重要的悖论,在实验分析中经常被用到,是一个很反直觉的效应。
维基百科的定义如下:
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。
下面来举一个很简单的例子:
小明的爸爸让小明去菜市场买苹果和香蕉一共10斤
苹果 1 块钱一斤, 小明买了 1 斤,花了1 * 1 = 1块钱
香蕉 2 块钱一斤,小明买了 9 斤, 花了2 * 9 = 18块钱
如果计算一下小明所买的水果的平均单价 = 19 / 10 = 1.9 块/斤
时光荏苒,岁月如梭,如今小明已经都结婚生子了。这一天,小明让小小明也去菜市场买苹果和香蕉一共10斤。因为通货膨胀,苹果和香蕉都涨价了
苹果 1块5 一斤,小小明买了 8 斤,花了 1.5 * 8 = 12块钱
香蕉 2块5 一斤,小小明买了 2 斤,花了 1.5 * 2 = 5块钱
水果平均单价是 17 / 10 = 1.7 块/斤
小明就纳闷了,为什么明明两种水果都涨价了,总的单价还降了呢?小小明说爸爸你好笨,因为我多买了便宜的水果,少买了贵的水果呀!
这就是辛普森悖论的一个最简单也是最常见的应用,在做A/B实验的时候,我们经常会比较实验组和对照组的总指标(Metrics)变化,而没有具体分析每个类别的变化,有时候就会得出完全相反的结论,变成了笨笨的小明。这种现象一般也叫 Mix-Shift