学习笔记59 数据分析常见面试题 4-19

1、相关系数(字节跳动

参考答案

协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度,设计了相关系数这一应用广泛的统计指标。其公式如下:

相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。与协方差不同的是,相关系数的波动范围是有限的,上下浮动范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。

==相关系数是基于协方差做改进的,协方差的大小收到变量的相关程度和变量的方差影响,并不能真实的反应两个变量的关系。所以设置了相关系数,相关系数是在协方差的基础上进行了标准化,消除了两个变量变化幅度的影响。(4.21

2、如何估计样本量(字节跳动

参考答案

按照功效分析的方法,根据预期的功效、效应值、显著性水平来计算样本大小。

答案解析

当我们在设计一个实验的时候,需要考虑很多问题,其中一个就是实验流量的分发大小,也就是这个实验中需要需要多少样本才能有意义。

这类问题可以通过功效分析(power analysis)来进行计算,在实验前计算得到所需要的样本量,或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平的情况下,判断检测到给定效应值时所需的样本大小。反过来, 它也可以帮助你在给定显著性水平情况下,计算在某样本大小内能检测到给定效应值的概率。

==这里其实问的是AB测试中的样本量计算,这个问题通过功效分析来计算,功效分析就是在给定显著性水平的情况下,判断出检测到效应值所需要的样本。

同样的也可以得到在给定显著性水平,在某数量的样本下能检测到给定效应值的概率(4.21

我们在功效分析中一般关注四个量:功效、样本大小、效应值、显著性水平,当我们给定任意三个量后,就可以推算出第四个量。比如,在给定功效、显著性水平、效应值的情况下,我们可以推算需要多大的样本量。

==功效,样本大小,效应值,显著性水平,知道其中3个就可以得到第四个值。下面是对四个值的解释(4.21

1. 样本大小指的是实验设计中每种条件/组中观测的数目。

2. 显著性水平由Ⅰ型错误的概率来定义,也就是α。

3. 功效通过1减去Ⅱ型错误的概率来定义,我们可以把它看作真实效应发生的概率。

4. 效应值指的是在备择或研究假设下效应的量,效应值的表达式依赖于假设检验中使用的统计方法。

3、辛普森悖论,以及如何避免这种现象(字节跳动

参考答案

⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?

例如之前说到的例子,目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同,而兴趣会决定专业的不同,不同专业的录取率也会不同。总体上,我们只看到了性别和录取率的关系,但是却忽略了专业这个内在原因。而拆分专业去观察,就是控制男女在专业上是相同的,这样更有利于判断因果关系。

4、作为出行领域的小玩家,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。(滴滴

参考答案

若为较成熟健康的体系中,应为后者;在初期时为前者。

==出现一种尖端占比大的情况,就是一个明显的体系不成熟的表现,成熟的应该是倒三角,头部和腰部的订单多,尾部少。(4.21

答案解析

在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。

5、说一下t检验,z检验和卡方检验的原理,及其适用条件。(拼多多

参考答案

原理:

t检验:

z检验:

卡方检验:

Ai为实际频数(出现的次数),Ti为理论频数

适用条件:

一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

1、随机误差的分布(同盾科技

参考答案

正态分布(高斯分布)

答案解析

根据中心极限定理,大量独立的随机变量之和趋向于某个稳定的分布,该分布后来被人们称作正态分布(高斯分布)。人们认为误差是随机的,所以误差的和服从正态分布。

2、简单说一下两类错误(猿辅导

参考答案

第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的

答案解析

1-第一类错误也即原假设为真的情况我们接受的概率,对于A/B测试,犯这个错误代表新策略没有收益,我们却认为有收益,然后上线的错误,一般第一类错误不超过5%,第一类错误是明显的,也就是说在原假设为真的情况下接受原假设的概率要超过95%;统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率

3、简单说一下说说置信区间、置信度(滴滴广联达

参考答案

为了降低测量误差,通常多次实验并取其平均值。为了评估一名射击运动员的真实水平,经过一次测试,他射击10次的平均值为8环,那8环就能代表他的真实水平了吗?当然不能这么简单得出结论,有可能再经过一次测试,他射击的平均水平就变成了7环。在这种情况下,不能简单地进行运动员射击水平的点估计,而是给出一个可信度及在此置信度下对射击水平进行估计的置信区间[a,b]。由此引出置信区间和置信度,接下来介绍置信区间和置信度的概念。

在概率统计中进行参数的区间估计时,会涉及确定置信度和计算置信区间的过程。那置信度到底是什么呢?在科学实验中经过多次抽样(一次抽样有多个数据,一次抽样构建一个置信区间),重复构建多次的置信区间中覆盖总体参数真值的次数所占比例为置信度,也称为置信水平或置信系数。置信度通常有90%、95%和99%,由于95%的置信度计算出来的置信区间具有较高的可信度,而且波动幅度相对不会太大,在区间估计中普遍会将置信度设置为95%。在此置信度下,再由样本统计量对总体参数进行区间估计得到置信区间。

假设样本总体符合正态分布,即满足

由中心极限定理可知样本均值符合正态分布,计算得到X~(μ,σ^2/n) 。基于确定的置信度查询Z表即标准正态分布表,确认Z值。因此置信区间可确定为[μ-Z σ/√n,μ+Z σ/√n] ,其中 μ 为样本统计量的期望, σ 为样本统计量对样本整体标准差的估计值。

4、协方差是啥,怎么判断协方差正负(滴滴

参考答案

==协方差就是用来衡量两个变量变化趋势的一致程度、

5、说一下辛普森悖论的例子吧(拼多多

参考答案

美国加州大学伯克利分校研究生录取数据中,男生录取率为44%,女生录取率为35%,那能依据这一观测数据,认为伯克利分校研究生录取存在性别歧视吗?

Bicke 对此做了研究,他发现,虽然总体上,男生录取率高于女生,但是拆开专业后发现,几乎每个专业均是女生的录取率更高。

为什么你比较总体结论与比较总体各部分的结论会存在差异呢?因为男女生在专业上的分布不一样,男生主要集中在录取率较高的专业,女生主要集中在录取率较低的专业,这样整体看来,就是女生录取率更低了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,179评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,229评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,032评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,533评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,531评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,539评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,916评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,813评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,568评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,654评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,354评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,937评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,918评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,152评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,852评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,378评论 2 342