业务题（三）

1.比较两个样本的差异(比如中国和日本的学历差异)

2.假设现在快手游戏直播业务的DAU为5000w，其中“观看时长为20min以上”的用户有2000w，现在想要提升“观看时长为20min以上”的用户占比，应该怎样做？请你给产品和业务提出建议？

3.留存率：特指新增用户的留存率。业内广泛然日次日、七日、30日留存率依次为40–20–10衡量一个产品健康成长的重要标志。

存率计算案例 1月1日，新增用户200人; 次日留存：第2天，1月2日，这200人里面有100人活跃，则次日留存率为： 100/ 200 = 50% 2日留存：第3天，1月3日;这200名新增用户里面有80人活跃，第3日新增留存率为:80/200 = 40%; 7日留存：第8天，1月8日，这200名新增用户里面有25人活跃，第7日新增留存率为:25/200 = 12.5%;
user_id‘用户编号’，log_time‘登陆时间’，计算次日留存率，七日留存率，30日留存率；

select a.first_log，count(distinct b.user_id)/count(distinct a.user_id) as "次日留存率"，count(distinct b.user_id)/count(distinct a.user_id) as "七日留存率"，count(distinct b.user_id)/count(distinct a.user_id) as "30日留存率"
    from (select user_id,log_time,min(log_time) over (partition by user_id order by log_time) as first_log  from user_log) a 
    left join user_log b on a.user_id=b.user_id and datediff(b.log_time,a.first_log)=1
    left join user_log c on a.user_id=c.user_id and datediff(c.log_time,a.first_log)=6
    left join user_log d on a.user_id=d.user_id and datediff(d.log_time,a.first_log)=29
    group by a.first_log

分析
*   使用开窗函数比较简单
*   一定要使用`left join`,而不是`where`,因为只有这样才能把第二题没有留下的用户保留，计算留存率时保证分母。

4.8月份某一天，观众侧的直播总观看时长降低，作为快手数据分析师，你打算怎么分析？

5.ETL流程

Extraction-Transformation-Loading的缩写，中文名称为数据抽取、转换和加载

1.数据抽取。2.数据转换清洗。3.数据加载。4.ETL相关工具

6.手写文本的熵的代码(python)

7.小红书的用户画像，如何构建用户画像？

https://blog.csdn.net/zw0Pi8G5C1x/article/details/83964888

定义：用户画像是根据用户社会属性、生活习惯和消费行为等信息抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”，而标签是通过对用户信息分析得来的高度精炼的特征标识。
方法：
- 收集数据：用户注册登录信息，用户行为轨迹
- 建立标签计算权值：用户画像的目标是通过分析用户行为，最终为每个用户打上标签，以及该标签的权重。如，红酒 0.8、李宁 0.6。
  
  这样做有两个问题：一个是用户的兴趣累加是线性的，数值会非常大，老的兴趣权重会特别高；另一个是用户的兴趣有很强的时效性，昨天的点击要比一个月之前的点击重要的多，线性叠加无法突出近期兴趣。
  
  [图片上传失败...(image-26384b-1568215233642)]
  
  image
  
  底层标签一个是每个标签只能表示一种含义，避免标签之间的重复和冲突，便于计算机处理；另一个是标签必须有一定的语义，方便相关人员理解每个标签的含义.
  
  [图片上传失败...(image-cf5ae5-1568215233642)]
  
  模型标签是标签体系的核心，也是用户画像工作量最大的部分，大多数用户标签的核心都是模型标签。模型标签的构造大多需要用到机器学习和自然语言处理技术;
  
  最后构造的是高级标签，高级标签是基于事实标签和模型标签进行统计建模得出的，它的构造多与实际的业务指标紧密联系。只有完成基础标签的构建，才能够构造高级标签。构建高级标签使用的模型，可以是简单的数据统计，也可以是复杂的机器学习模型。
  - 人口属性、商业属性：很多产品（如QQ、facebook等）都会引导用户填写基本信息，这些信息就包括年龄、性别、收入等大多数的人口属性，但完整填写个人信息的用户只占很少一部分。而对于无社交属性的产品（如输入法、团购APP、视频网站等）用户信息的填充率非常低，有的甚至不足5%。在这种情况下，我们一般会用填写了信息的这部分用户作为样本，把用户的行为数据作为特征训练模型，对无标签的用户进行人口属性的预测。这种模型把用户的标签传给和他行为相似的用户，可以认为是对人群进行了标签扩散，因此常被称为标签扩散模型。其中使用的技术方法主要是机器学习中的分类技术，常用的模型有LR、FM、SVM、GBDT等。
  - 兴趣画像是互联网领域使用最广泛的画像，互联网广告、个性化推荐、精准营销等各个领域最核心的标签都是兴趣标签。兴趣画像主要是从用户海量行为日志中进行核心信息的抽取、标签化和统计，因此在构建用户兴趣画像之前需要先对用户有行为的内容进行内容建模。内容建模需要注意粒度，过细的粒度会导致标签没有泛化能力和使用价值，过粗的粒度会导致没有区分度。比如新闻的兴趣画像可以是分类-主题-关键词，依次增加。小红书可以考虑为，分类-主题-关键词，比如分类为“护肤、医美、美发、推书、服装、旅游等”，主题比如说“双眼皮、抽脂、小气泡”，关键词“南京、女、医院、小气泡、500块等”
- 用户画像评估和使用
  
  人口属性画像的相关指标比较容易评估，而兴趣画像的标签比较模糊，兴趣画像的人为评估比较困难，我们对于兴趣画像的常用评估方法是设计小流量的A/B-test进行验证。
  
  我们可以筛选一部分标签用户，给这部分用户进行和标签相关的推送，看标签用户对相关内容是否有更好的反馈。
  
  用户画像的评估指标主要是指准确率、覆盖率、时效性等指标。
  - 标签的准确率指的是被打上正确标签的用户比例，准确率是用户画像最核心的指标，一个准确率非常低的标签是没有应用价值的。准确率的计算公式如下：
    
    [图片上传失败...(image-64b315-1568215233642)] 其中| Utag |表示被打上标签的用户数，| Utag=true |表示有标签用户中被打对标签的用户数。准确率的评估一般有两种方法：一种是在标注数据集里留一部分测试数据用于计算模型的准确率；另一种是在全量用户中抽一批用户，进行人工标注，评估准确率。由于初始的标注数据集的分布和全量用户分布相比可能有一定偏差，故后一种方法的数据更可信。准确率一般是对每个标签分别评估，多个标签放在一起评估准确率是没有意义的。
  - 标签的覆盖率指的是被打上标签的用户占全量用户的比例，我们希望标签的覆盖率尽可能的高。但覆盖率和准确率是一对矛盾的指标，需要对二者进行权衡，一般的做法是在准确率符合一定标准的情况下，尽可能的提升覆盖率。我们希望覆盖尽可能多的用户，同时给每个用户打上尽可能多的标签，因此标签整体的覆盖率一般拆解为两个指标来评估。一个是标签覆盖的用户比例，另一个是覆盖用户的人均标签数，前一个指标是覆盖的广度，后一个指标表示覆盖的密度。用户覆盖比例的计算方法是：其中| U |表示用户的总数，| Utag |表示被打上标签的用户数。人均标签数的计算方法是：其中| tagi |表示每个用户的标签数，| Utag |表示被打上标签的用户数。覆盖率既可以对单一标签计算，也可以对某一类标签计算，还可以对全量标签计算，这些都是有统计意义的。
  - 有些标签的时效性很强，如兴趣标签、出现轨迹标签等，一周之前的就没有意义了；有些标签基本没有时效性，如性别、年龄等，可以有一年到几年的有效期。对于不同的标签，需要建立合理的更新机制，以保证标签时间上的有效性。
- 可视化
可用的算法：
应用：智能营销、计算广告、个性化推荐

8.618后拼多多成交量下降，分析原因并说明需要用哪些数据作支撑？

顾客前期消费过多，短期消费能力下降：618消费超1000元又消费的比率，618消费不足100元又消费的比率
受前提优惠活动的影响，顾客觉得不再优惠：618购物后又购物的比率，商品现价和618的比率

9.估计上海上空下午1-3点飞过的飞机数量

起飞、降落、其他国家通过
国际航班和国内航班：

国际航班：全世界200多个国家和地区假设30%的直航

国内航班：全国有多少个机场，假设有80%可达

假设1-3点起飞量和降落量占10%

10.某一渠道入口流量下降该如何分析，如何判定渠道流量是否优秀流量 ,渠道指标你觉得最重要的三个指标是什么?

渠道入口一般分为三大类：搜索渠道，引荐渠道，直接渠道，下面是各渠道的影响因素：品牌广告、热点事件、内部访问、营销活动、线下推广、短信宣传、app推广
渠道流量的影响因素：统计代码故障、节假日正常波动、营销活动影响、搜索引擎降权、外部推广影响、服务器异常；
三大指标：数量、质量、收入

12.如果你是天猫数据分析师，你在月末报告中你会关注哪些指标？

成交额、成交用户数、平均客单,订单数，累计用户数
pv，uv，新增用户
累计用户数，累计销售额，环比。

14.抖音新加的购物车功能对我们有什么影响？

15.购物车落地页是视频主自己的商城页，抖音不会分取收益，那么我们如何获得收益？

16.商业化广告带来的影响？既然你说购物功能会有正面转化，商业广告会有负面转化，那购物功能作为广告形式会对我们流量整体带来怎样的结果？

17.可视化和数据报告

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342

业务题（三）

1.比较两个样本的差异(比如中国和日本的学历差异)

2.假设现在快手游戏直播业务的DAU为5000w，其中“观看时长为20min以上”的用户有2000w，现在想要提升“观看时长为20min以上”的用户占比，应该怎样做？请你给产品和业务提出建议？

3.留存率：特指新增用户的留存率。业内广泛然日次日、七日、30日留存率依次为40–20–10衡量一个产品健康成长的重要标志。

4.8月份某一天，观众侧的直播总观看时长降低，作为快手数据分析师，你打算怎么分析？

5.ETL流程

6.手写文本的熵的代码(python)

7.小红书的用户画像，如何构建用户画像？

8.618后拼多多成交量下降，分析原因并说明需要用哪些数据作支撑 ？

9.估计上海上空下午1-3点飞过的飞机数量

10.某一渠道入口流量下降该如何分析 ，如何判定渠道流量是否优秀流量 ,渠道指标你觉得最重要的三个指标是什么?

推荐阅读更多精彩内容

8.618后拼多多成交量下降，分析原因并说明需要用哪些数据作支撑？

10.某一渠道入口流量下降该如何分析，如何判定渠道流量是否优秀流量 ,渠道指标你觉得最重要的三个指标是什么?