Experimental Design:
案例:研究阿里巴巴男生和女生的购买某种商品男:70 女:30:
如果数据是unbalanced 会出现什么情况 (男和女抽样的sample 不相等)?
首先我们要从实际出发:这个商品是否是男女有别:
例如:
我们可以先看看这个两个训练集的分布是否一样:
频率数字:
如果是正态分布我们可以使用t-test
如果不是正态分布,我们可以使用non-parametric 的方法: 例如Goodness-of-fit test (F-test)
会出现的问题:
type II error:
less power