1、相关系数(字节跳动)
参考答案
协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度,设计了相关系数这一应用广泛的统计指标。其公式如下:
相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。与协方差不同的是,相关系数的波动范围是有限的,上下浮动范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。
==相关系数是基于协方差做改进的,协方差的大小收到变量的相关程度和变量的方差影响,并不能真实的反应两个变量的关系。所以设置了相关系数,相关系数是在协方差的基础上进行了标准化,消除了两个变量变化幅度的影响。(4.21
2、如何估计样本量(字节跳动)
参考答案
按照功效分析的方法,根据预期的功效、效应值、显著性水平来计算样本大小。
答案解析
当我们在设计一个实验的时候,需要考虑很多问题,其中一个就是实验流量的分发大小,也就是这个实验中需要需要多少样本才能有意义。
这类问题可以通过功效分析(power analysis)来进行计算,在实验前计算得到所需要的样本量,或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平的情况下,判断检测到给定效应值时所需的样本大小。反过来, 它也可以帮助你在给定显著性水平情况下,计算在某样本大小内能检测到给定效应值的概率。
==这里其实问的是AB测试中的样本量计算,这个问题通过功效分析来计算,功效分析就是在给定显著性水平的情况下,判断出检测到效应值所需要的样本。
同样的也可以得到在给定显著性水平,在某数量的样本下能检测到给定效应值的概率(4.21
我们在功效分析中一般关注四个量:功效、样本大小、效应值、显著性水平,当我们给定任意三个量后,就可以推算出第四个量。比如,在给定功效、显著性水平、效应值的情况下,我们可以推算需要多大的样本量。
==功效,样本大小,效应值,显著性水平,知道其中3个就可以得到第四个值。下面是对四个值的解释(4.21
1. 样本大小指的是实验设计中每种条件/组中观测的数目。
2. 显著性水平由Ⅰ型错误的概率来定义,也就是α。
3. 功效通过1减去Ⅱ型错误的概率来定义,我们可以把它看作真实效应发生的概率。
4. 效应值指的是在备择或研究假设下效应的量,效应值的表达式依赖于假设检验中使用的统计方法。
3、辛普森悖论,以及如何避免这种现象(字节跳动)
参考答案
⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?
例如之前说到的例子,目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同,而兴趣会决定专业的不同,不同专业的录取率也会不同。总体上,我们只看到了性别和录取率的关系,但是却忽略了专业这个内在原因。而拆分专业去观察,就是控制男女在专业上是相同的,这样更有利于判断因果关系。
4、作为出行领域的小玩家,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。(滴滴)
参考答案
若为较成熟健康的体系中,应为后者;在初期时为前者。
==出现一种尖端占比大的情况,就是一个明显的体系不成熟的表现,成熟的应该是倒三角,头部和腰部的订单多,尾部少。(4.21
答案解析
在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。
5、说一下t检验,z检验和卡方检验的原理,及其适用条件。(拼多多)
参考答案
原理:
t检验:
z检验:
卡方检验:
Ai为实际频数(出现的次数),Ti为理论频数
适用条件:
一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异
卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
1、随机误差的分布(同盾科技)
参考答案
正态分布(高斯分布)
答案解析
根据中心极限定理,大量独立的随机变量之和趋向于某个稳定的分布,该分布后来被人们称作正态分布(高斯分布)。人们认为误差是随机的,所以误差的和服从正态分布。
2、简单说一下两类错误(猿辅导)
参考答案
第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的
答案解析
1-第一类错误也即原假设为真的情况我们接受的概率,对于A/B测试,犯这个错误代表新策略没有收益,我们却认为有收益,然后上线的错误,一般第一类错误不超过5%,第一类错误是明显的,也就是说在原假设为真的情况下接受原假设的概率要超过95%;统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率
参考答案
为了降低测量误差,通常多次实验并取其平均值。为了评估一名射击运动员的真实水平,经过一次测试,他射击10次的平均值为8环,那8环就能代表他的真实水平了吗?当然不能这么简单得出结论,有可能再经过一次测试,他射击的平均水平就变成了7环。在这种情况下,不能简单地进行运动员射击水平的点估计,而是给出一个可信度及在此置信度下对射击水平进行估计的置信区间[a,b]。由此引出置信区间和置信度,接下来介绍置信区间和置信度的概念。
在概率统计中进行参数的区间估计时,会涉及确定置信度和计算置信区间的过程。那置信度到底是什么呢?在科学实验中经过多次抽样(一次抽样有多个数据,一次抽样构建一个置信区间),重复构建多次的置信区间中覆盖总体参数真值的次数所占比例为置信度,也称为置信水平或置信系数。置信度通常有90%、95%和99%,由于95%的置信度计算出来的置信区间具有较高的可信度,而且波动幅度相对不会太大,在区间估计中普遍会将置信度设置为95%。在此置信度下,再由样本统计量对总体参数进行区间估计得到置信区间。
假设样本总体符合正态分布,即满足
由中心极限定理可知样本均值符合正态分布,计算得到X~(μ,σ^2/n) 。基于确定的置信度查询Z表即标准正态分布表,确认Z值。因此置信区间可确定为[μ-Z σ/√n,μ+Z σ/√n] ,其中 μ 为样本统计量的期望, σ 为样本统计量对样本整体标准差的估计值。
4、协方差是啥,怎么判断协方差正负(滴滴)
参考答案
==协方差就是用来衡量两个变量变化趋势的一致程度、
5、说一下辛普森悖论的例子吧(拼多多)
参考答案
美国加州大学伯克利分校研究生录取数据中,男生录取率为44%,女生录取率为35%,那能依据这一观测数据,认为伯克利分校研究生录取存在性别歧视吗?
Bicke 对此做了研究,他发现,虽然总体上,男生录取率高于女生,但是拆开专业后发现,几乎每个专业均是女生的录取率更高。
为什么你比较总体结论与比较总体各部分的结论会存在差异呢?因为男女生在专业上的分布不一样,男生主要集中在录取率较高的专业,女生主要集中在录取率较低的专业,这样整体看来,就是女生录取率更低了。