字节跳动数据分析面经
-
对于一个app说一个你最关注的指标? 为什么是这个指标而不是其他的 ?
视频类:
-
活跃用户(比例活跃用户占总用户的比例,日活,周活,月活)
这个指标是一个具有比较性定量指标,而且简单易懂。这个指标揭示了用户参与度。
而且对比下载量,用户总量来说,它是一个可以可付诸行动的指标。当产品做出调整时,该数字也会相应的变化,如果变化是积极的,表明调整是正确的
比如游戏类产品比较注重日活,可以把日活作为产品的核心指标,参考行业平均水平或者公司自己划定的一个目标值或正常值,就能清楚的了解到当前的产品状态了。
根据活跃增长情况,判断产品是否能进行大规模推广。比如某产品当前日活月活稳定在一个正常值,并且增长缓慢,从这里或许我们就能得出,用户增长稳定但增速变慢了,可以尝试进一步推广,扩大用户规模。
留存率(日留存率,周留存率,月留存率)
盈利
后续传播指数
-
-
如果日活用户有2000万 每日新增用户为50万 其第一天留存率一直加到365日留存率的和等于40 问365天之后日活能达到多少
- 2000+50X40=4000万
-
如果app里要上线一个广告位 你怎么设计方案验证要不要上线这个广告位 ? 如果已知此广告位会带来100万的收益 ,CAC(Customer Acquisition Cost 用户获取成本)= 6 但是会使每日的留存率降低1% 用数学公式计算要不要上线此广告位 ?如果上线了此广告位 问哪一天日活达到最大 ?
-
留存率=新增用户中登录用户数/新增用户数*100%(一般统计周期为天)
新增用户数:在某个时间段(一般为第一整天)新登录应用的用户数;
登录用户数:登录应用后至当前时间,至少登录过一次的用户数;
次日留存率:(当天新增的用户中,在注册的第2天还登录的用户数)/第一天新增总用户数;
第7日留存率:(第一天新增的用户中,在注册的第7天还有登录的用户数)/第一天新增总用户数;
第30日留存率:(第一天新增的用户中,在注册的第30天还有登录的用户数)/第一天新增总用户数。
-
-
(找到正确的指标)如果让你做一个社交类的app你会关注哪些业务指标? (当时我说了一堆 他都说是增长指标 我一直没搞懂这里业务指标指啥)
AARRR(获取用户,提高活跃度,提高留存率,获取营收,自传播)
微信:
-
获取用户:流量、提及量、CPC(每次点开费用)、用户获取成本等;
提高活跃度:日活跃量,新用户增速
提高留存率:用户参与度,距上次登录时间,日活月活,流失率
获取营收:先确定营收方式
自传播:邀请发送量、病毒式传播周期
微博:
-
如果一天日活(DAU, daliy active user)突然下降了 你要怎么寻找原因 为什么这么做 ?
-
http://www.woshipm.com/data-analysis/2467030.html
核心点:先做数据异常原因的假设,后用数据验证假设。
第一步:确认数据真实性
-
第二步:根据几个常见维度初步拆分数据
常见的几个维度:
拆用户:新老用户
拆登录平台:ios/安卓
拆版本:新老版本
拆入口:点击图标登入、push调起等
拆登录渠道:app,微信小程序,pc端,M端等
拆区域:省份国家等
拆时间:淡旺季、日夜、周期性产品等
计算影响系数:每一项数据都要和以往正常值做对比,算出影响系数。
影响系数=(今日量-昨日量)/(今日总量-昨日总量)
影响系数越大,说明此处就是主要的下降点
以上是几种常见的初步拆分维度,通过初步拆分,定位原因大致范围。
-
第三步:异常范围定位后,进一步做假设
针对初步定位的影响范围,进行进一步的排查。分三个维度来做假设,建议针对数据异常问题专门建一个群,拉上相应的产品、技术、运营人员一起,了解数据异常时间点附近做了什么产品、运营、技术侧调整。最后根据以往经验来假设最可能出现的原因。
-
第四步:细分假设,确立原因
除了上述,可以细分分析的维度实在太多,逻辑上说核心点在于一个假设得到验证后,在这个假设为真的基础上,进行更细维度的数据拆分。我们需要记住这种分析方式,当猜测是某种原因造成数据异常时,只要找到该原因所代表的细分对立面做对比,就可以证明或证伪我们的猜测,直到最后找到真正原因。
-
-
如果抖音上的搜索按钮换成了搜索框 搜索量和日活分别会怎么变换为什么 怎么去验证 ?
-
了解头条的产品吗?评价一下有哪些需要改进的地方?
相比传统媒体的核心——记者、编辑、运营,今日头条主打工具,核心是机器推荐算法,也就是一款用机器推荐算法给用户推荐新闻的工具。没有复杂样式的内容,用简单的信息展现形式,展现出丰富的内容,满足用户看资讯的需求。
主要特点:1.不主观编辑 – 只提供客观内容;2. 主要内容为机器爬取或自媒体上传。3.个性化,根据用户兴趣推荐内容。类似于淘宝的千人千面。
-
改进:版权问题
内容审核机制
-
用户刚进来APP的时候会选择属性,但是会就是很多新用户,怎样在保证有完整用户信息的同时让用户流失减少。
采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:
感知有用性:
a. 文案告知用户选择属性能给用户带来的好处
2)感知易用性:
a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择
b. 交互性做好
3)使用者态度:用户对填写信息的态度
a. 这里需要允许用户跳过,后续再提醒用户填写
b. 告知用户填写的信息会受到很好的保护
4)行为意图:用户使用APP的目的性,难以控制
5)外部变量:如操作时间、操作环境等,这里难以控制</pre>
-
APP激活量的来源渠道很多,怎样对来源渠道变化大的进行预警。
如果渠道使用时间较长,认为渠道的app激活量满足一个分布,比较可能是正态分布。求平均值和标准差,对于今日数值与均值差大于3/2/1个标准差的渠道进行预警
对于短期的新渠道,直接与均值进行对比。
(找到正确的指标)如果头条做一个类似的短视频APP,你认为值得关注的有哪些指标?
AARRR(获取用户,提高活跃度,提高留存率,营收,自传播)
- 西瓜视频推出初期,希望通过push来引导更多的用户参与答题。现在如果需要你确定哪个时间段进行push推送能更好地引流,你怎么做?(给出思路)
- 抖音界面的搜索位置如果做一个产品功能迭代,将搜索按钮更改为搜索框,请你预测一下搜索量和视频播放量这两个指标的影响?为什么?
- 手机上最常用的APP有哪些?你觉得这些APP有哪些可以优化的点?
- 说一下你经常用的app (微信 b站 知乎 微博) , 给他介绍一下b站这个app ,说一下b站都有什么缺点和优点 , b站和爱奇艺对比 有什么差异?
- 如果次日用户留存率下降了 5%该怎么分析;
首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁。
对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以采用“内部-外部”因素考虑。 a. 内部因素分为获客(渠道质量低、活动获取非目标用户)、满足需求(新功能改动引发某类用户不满)、提活手段(签到等提活手段没达成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等); b. 外部因素采用PEST分析(宏观经济环境分析),政治(政策影响)、经济(短期内主要是竞争环境,如对竞争对手的活动)、社会(舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化)、技术(创新解决方案的出现、分销渠道变化等)。
- 对今日头条的看法。
17.卖玉米如何提高收益,价格提高多少才能获取最大收益;类比到头条的收益,头条放多少广告可以获得最大收益,不需要真的计算,只要有个思路就行;
- 收益 = 单价*销售量,那么我们的策略是提高单位溢价或者提高销售规模。
提高单位溢价的方法:品牌打造获得长期溢价,但缺陷是需要大量前期营销投入;加工商品占据价值链更多环节,如熟玉米、玉米汁、玉米蛋白粉;重定位商品,如礼品化等;价格歧视,根据价格敏感度对不同用户采用不同定价。
销售量=流量*转化率,上述提高单位溢价的方法可能对流量产生影响,也可能对转化率产生影响。
那么 收益 = 单价流量转化率,短期内能规模化采用的应该是进行价格歧视,如不同时间、不同商圈的玉米价格不同,采取高定价,然后对价格敏感的用户提供优惠券等
- 收益 = 出价流量点击率*有效转化率,放广告的数量会在提高流量,但会降低匹配程度,因此降低点击率。最大收益是找到这个乘积的最大值,是一个有约束条件的最优化问题。
同时参考价格歧视方案,可以对不同的用户投放不同数量的广告。
18.男生点击率增加,女生点击率增加,总体为何减少?
- 因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。 如原来男性20人,点击1人;女性100人,点击99人,总点击率100/120。 现在男性100人,点击6人;女性20人,点击20人,总点击率26/120。 即那个段子“A系中智商最低的人去读B,同时提高了A系和B系的平均智商。”
19.如何识别作弊用户(爬虫程序, 或者渠道伪造的假用户)
分类问题可以用机器学习的方法去解决,下面是我目前想到的特征:
渠道特征:渠道、渠道次日留存率、渠道流量以及各种比率特征
2)环境特征:设备(一般伪造假用户的工作坊以低端机为主)、系统(刷量工作坊一般系统更新较慢)、wifi使用情况、使用时间、来源地区、ip是否进过黑名单
3)用户行为特征:访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为(假用户的行为要么过于一致,要么过于随机)、页面使用行为(正常用户对图片的点击也是有分布的,假用户的行为容易过于随机)
4)异常特征:设备号异常(频繁重置idfa)、ip异常(异地访问)、行为异常(突然大量点击广告、点赞)、数据包不完整等</pre>
20.假如我们有三个营收渠道,每个渠道的流水都在上涨,每个渠道的佣金率是固定没有变的,但是我们平均佣金率下降了,你能分析一下吗?
21.2019年7月,天猫宠物用品购买用户数增长率比前半年有下降,应该从哪几个方面分析原因?
22.介绍一款产品,这款产品有哪些需要改进的地方,为什么产品没做这款改进?
23.估计一袋瓜子有多少颗,可以用任意工具任意办法
24.假如我是广告主,你是微博的数据分析师。我现在找微博投鞋子的广告,给了200w,2星期用完。2星期后需要你给我一份广告的效果评估报告,你会怎么分析?
25.发现新用户登录后下单量不理想,进行发券测试,两种券,满20减2和满30减3
①不考虑成本,比较两种券优劣,考核指标?如何做测试?②考虑成本呢?
26.建立一个防止用户流失的模型
27.用户等级驻留场景分析
28.某一渠道入口流量下降该如何分析
29.ETL
30.你的一个朋友经营一个网店,以前100个人浏览会有50个人下单,最近客服咨询量提升到200,但下单却下降到40,请你帮她分析原因。
31.你的朋友说最近咨询的人变多了,但是他做的是小本生意,没有能力再去请多一个客服,所以导致自己回复用户速度下降,很多人就走了没有下单,请你帮他想一下解决方案。
32.你的朋友按照你的建议去做,生意变好了,他赚钱了,然后他一下子请了5个客服,请你设计指标去考核客服的KPI。
33.有没有用过拼多多,怎么评价砍价活动的广告效果?有哪些指标?
34.广告投放渠道的选择,如何降低成本的同时提高用户召回率?
首先做渠道选择,减少需要考虑的维度,具体为观测用户分布的情况,选择最高的20个;
指标分析,比如有些渠道用户分布密度高,那其找回率第一点也没事,单有的虽然召回率很高但 是分布相 对较小,需要作出决策具体的分配策略。
修改以及调整,在投入后不断地修正投入方案
35.对拼多多的理解,对拼多多产品提一提看法(我提到的朋友分享的砍价页面
砍价页面,不同的用户点进来,每个用户每一刀砍掉多少钱,你怎么设计,写个函数吧(我说了想法,没写)
你怎么验证刚刚提到的砍价策略是有效的,需要哪些数据指标(我提到了砍完价之后的成交率)
砍价的成交率越高越好还是越低越好(这里发现了我对拼多多业务理解的盲点,成交率越低越好,因为每成交一单都会增加平台的成本,这里边只有成本,没有利润空间,拼多多主要赚的不是商品利润,而是流量)
36.用户留存率等方面的问题
37.常用的app,存在的问题,然后打算怎么解决这个问题
38.乐学大讲堂,V-lab实验室用户调研,思变讲坛《增长黑客》
39.之前在学校做过的用户画像和在公司做的用户画像详细说明一下,小姐姐问有了解过其他地方是怎么做用户画像的吗?
知识点
1.模型验证的方法
2.AB测试相关,包括P值的统计学意义?如何通过P值判断实验结果?
3.f检验
4.根据数据集,怎么选择合适的算法?
5.现在有十个客户,我们有十个用户包,客户对每个用户包出价(竞价排名广告),用什么统计方法判断两个用户包的价值是不是一样的?
6.数据清洗中常见的问题有哪些?怎么把数值型变量变成分类变量?Pandas cut或者qcut(quantile cut)。除了这个还有其他方法吗?(根据常用的经验来划分,比如年龄)还有吗?(如实回答不知道。。。面试官说可以根据划分之后的变量与Y变量的相关性强弱来划分)
5.常用的数据标准化和归一化方法有哪些?(max-min, Z-score,Labelencoding, One-hot encoding)
6.one-hot encoding 和Label encoding 的区别是什么?
7.你这样做的目的是为了Voting吗?(不是,还没到Ensemble那一步)
8.XGboost你一般怎么调参?(讲了一下XGboost原理,主要是比较和GDBT的不同,然后说一般调n_estimator***ax_depth,L1,L2)
9.关于采样的问题;
10.辛普森悖论(Simpson’s paradox)http://www.woshipm.com/data-analysis/1846422.html
11.行存储和列存储的区别
<pre class="md-fences md-end-block ty-contain-cm modeLoaded" lang="" style="box-sizing: border-box; overflow: visible; font-family: var(--monospace); font-size: 0.9em; display: block; break-inside: avoid; text-align: left; white-space: normal; background-image: inherit; background-position: inherit; background-size: inherit; background-repeat: inherit; background-attachment: inherit; background-origin: inherit; background-clip: inherit; background-color: rgb(248, 248, 248); position: relative !important; border: 1px solid rgb(231, 234, 237); border-radius: 3px; padding: 8px 4px 6px; margin-bottom: 15px; margin-top: 15px; width: inherit; color: rgb(51, 51, 51); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial;" contenteditable="true" spellcheck="false" mdtype="fences" cid="n424">1)行存储:传统数据库的存储方式,同一张表内的数据放在一起,插入更新很快。缺点是每次查询即使只涉及几列,也要把所有数据读取
2)列存储:OLAP等情况下,将数据按照列存储会更高效,每一列都可以成为索引,投影很高效。缺点是查询是选择完成时,需要对选择的列进行重新组装。</pre>
12.反作弊(模型搭建,解决思路)
https://blog.csdn.net/qq_32618817/article/details/80395752
https://blog.csdn.net/u013382288/article/details/80390324
https://www.jianshu.com/p/1431daad2c62
https://www.jianshu.com/p/84de25b9e7f5
http://www.woshipm.com/data-analysis/2467030.html
http://www.woshipm.com/data-analysis/2589190.html
https://www.jianshu.com/p/51c205d7b07b