2.adaboost和xgboost的区别;xgboost的并行体现在哪(工程上的并行,不是计算上的并行)(猿辅导)
参考答案
Adaboost与GBDT两者boosting的不同策略是两者的本质区别。
Adaboost强调Adaptive(自适应),通过不断修改样本权重(增大分错样本权重,降低分对样本权重),不断加入弱分类器进行boosting。
Xgboost则是旨在不断减少残差(回归),可以人为定义损失函数(可以是最小平方差、logistic
loss function、hinge loss function或者人为定义的loss function),只需要知道该loss function对参数的一阶、二阶导数便可以进行boosting,其进一步增大了模型的泛华能力
==两者本质区别还是boosting的策略。adaboost强调的是对分错样本的权重增加,不断加入弱学习器。XGboost则是在于减少残差
==adaboost还是比较传统的那种boosting,方向是增加分错的权重;而GBDT就是比较特殊的,它的方向是降低残差。(4.16
3.K-means、K-means 算法的优缺点(bigo、字节跳动、京东、广联达)
参考答案
优点:当潜在的簇形状是凸面,簇与簇之间较明显,且簇大小相近时,结果较理想。对于处理大数据,该算法高效且伸缩性较好。
缺点:要事先确定k;对于初始簇中心敏感,常以局部最优结束,对孤立点敏感,不适于发现非凸的簇或大小差别大的簇。
==kmeans这么多公司考吗?这不就是一个简单的聚类吗?不过优缺点还真不好说。(4.16
4.KNN、K-Means区别(京东)
参考答案
KNN是分类算法,它是监督学习,知道了结果去效验结果是否正确。 K-Means是聚类算法,它是非监督学习,它需要先自己算去一个结果。
答案解析
5.介绍一下k-means,你的数据如何处理,模型的输出是什么?(浦发银行)
参考答案
介绍kmeans:
第一步:数据归一化、离群点处理后,随机选择k个聚类质心
第二步:所有数据点关联划分到离自己最近的质心,形成k个簇;
第三步:重新计算每个簇的质心;
重复第二步、第三步,直到簇不发生变化或达到最大迭代次数;
==介绍一下算法步骤,首先对数据进行归一化,处理离群点,然后选择K个聚类中心;将所有的点分到相对最近的聚类中心,这样就形成了K个簇;然后对每个簇重新计算聚类中心
数据如何处理:
为了防止均值和方差大的维度将对数据的聚类产生决定性影响,所以在聚类前我们对数据进行了归一化处理。
==主要就是归一化
模型输出:
n个维度,输出为 的向量。[0 1 1 0 1],就是把第1,4维分为一类,其他分为另一类。
答案解析
kmeans聚类的过程和步骤。
机器学习与数据挖掘-2
6.实习内容中:RFM模型和kmeans(猿辅导)
参考答案
RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的 一种方法。它能够识别优质客户;可以制定个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收能力。
R(Recency)——最近一次交易时间间隔。
F(Frequency)——客户在最近一段时间内交易次数。
M(Monetray)——客户最近一段时间内交易金额。
==RFM与随机森林无关哈,准确的说,是根据客户活跃程度和交易金额的贡献,来对客户价值进行细分的一种方法。用来给决策提高更加有力的支持。
三个字母的意思如上,就是交易时间,交易次数和交易金额
Kmeans算法:
第一步:数据归一化、离群点处理后,随机选择k个聚类质心
第二步:所有数据点关联划分到离自己最近的质心,形成k个簇;
第三步:重新计算每个簇的质心;
重复第二步、第三步,直到簇不发生变化或达到最大迭代次数。
7.特征工程怎么做的,选择了哪些特征作为预测变量?为什么用RFM模型来构建特征变量?(字节跳动)
参考答案
特征工程包括:特征构建->特征提取->特征选择。
选择特征:用户行为特征、用户消费特征、用户画像特征
==特征工程是特征构建-特征提取-特征选择(没get到点诶)
选择的特征是:用户行为,用户消费。用户画像(消费不能归到行为里面吗?)
为什么RFM模型:因为我们没有太多的用户行为数据,能用的数据比较有限。但是有一定的成交数据。只要有成交数据,就能进行RFM的分析。其次,模型的分层可解释性强。其他很多算法模型、机器学习模型,往往通过聚类进行用户的分层,对于业务来讲,不是很好解释。但RFM模型分成的用户类别,是非常好理解的。
==说到底还是RFM模型需要的数据比较简单,只要有成交数据就可以。另外就是RFM模型做的分类解释性比较高,用机器学习等去做或许效果更好,但是业务上不好解释。
参考答案
RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的 一种方法。它能够识别优质客户;可以制定个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收能力。
R(Recency)——最近一次交易时间间隔。
F(Frequency)——客户在最近一段时间内交易次数。
M(Monetray)——客户最近一段时间内交易金额。
9.xgb原理(猿辅导)
参考答案
xgboost就是一堆CART树的集合,将每棵树的预测值加在一起得到最后的预测值。xgboost利用了损失函数二阶的导数信息,并且在目标函数之外加入了正则项,避免过拟合。
==介绍的多少有些随意了,XGB算法是集成学习中串行式的一种,利用优化残差的思想去集成,利用了损失函数二阶的导数信息,并且加入了正则项
10.实习项目介绍,为什么用xgb(猿辅导)
参考答案
xgboosting在传统boosting的基础上,利用cpu的多线程,引入正则化项,控制了模型的复杂度。并且xgb可并行处理,并能对缺失值处理,还内置交叉验证。
==让串联的模型实现多线程计算,减少了运算时间(4.16
答案解析
xgboost的优点
27. 分析的y,也就是因变量是什么(ATL)
参考答案:
因变量是因为自变量的变化而产生的现象变化或结果,也叫函数值。
28. 假如在天猫上有两款商品,如何分析它们的优势、劣势以及它们之间的差异,并根据结果给出相应的建议,思考5分钟再回答(三诺生物)
参考答案:
可以从价格、销量、评价和商品介绍四个方面对比两款商品的优劣势和差异。可以按照自己的偏好设置权重,将价格、销量、评价和商品介绍量化打分后进行加权,得到最后的得分帮助自己选择。
==怎么感觉这题答得不太对呢
29. 讲述一个在实习中遇到的异动指标分析的实例(字节跳动)
参考答案:
我先简单介绍一下背景:是在xxx过程中我们发现xxx指标出现异常,于是我们需要找到问题原因。随后我们从xx和xx维度进行拆解,发现xx维度出现了异常。在我们与产品/技术团队沟通后发现是由于xx原因造成的xx指标异常。最后我们想到可以用xxx方法解决这个异常,并推动运营/产品/技术对这一策略进行落地。
答案解析:
项目背景+具体问题+分析过程+分析结论+策略落地
30. 情景是直播打赏,给主播刷礼物。平台希望通过刺激不付费的用户消费(提升付费率),来提升直播收入,所以现在上线了单价较低的打赏礼物。打个比方,原来最低价格的礼物是10抖币,现在新增的礼物只需要付2抖币。但发现直播的收益并没有明显提升,该如何分析?(字节跳动)
参考答案:
首先,我们需要对用户进行分层,可以分为上线较低打赏礼物前不付费用户和付费用户,再细分的话可以把付费用户按照付费金额划分区间。统计出各用户群的消费变动。若未付费用户转变为付费用户,则说明策略有效。
==关键在于用户分层,目标就是让不消费的用户去消费,那看下转化率就可以了
答案解析:
考察能够想到用户分层。
31. 平时分析中对接的人员(滴滴)
参考答案:
产品/运营人员:对接产品/运营的数据需求并搭建数据看板。
分析人员:进行专题分析和异常分析,并推动策略落地。
技术人员:数据平台出现bug以及看板报错情况,需和技术人员进行沟通。
==所以良好的沟通能力还是要有的,产品运营是爸爸,要听他们指挥,分析人员是兄弟,一起商讨异常问题,不过话说回来,分析人员不就是我们自己吗?然后技术就是儿子,告诉它们哪哪有问题。(4.16
32. 夏天北京网约车呼叫量增加,分析原因(滴滴)
参考答案:
对北京路段网约车始发地进行划分,例如分为xx商圈,xx机场等,查看是否存在哪些路段网约车车辆突增的趋势。随后对该路段情况进行分析,是否存在气候、工作等原因。针对这些原因,我们可以做出相应的策略来提高我们日常网约车的数量。
==这种问题首先都得做做分层。看看是哪些地点呼叫了增加,看看是不是有其他外部问题
==原因可太多了,这不得分分范围吗?(4.16
33. 现在的工作中涉及到分析的具体工作有哪些?(京东)
参考答案:
专题分析:对业务出现的异常情况进行专题分析,定位问题找出原因,并制订解决策略,推进落地;
临时分析需求:对小数据需求进行分析(指标监控),例如用户点赞行为分析;
报表分析:制作实时更新的可视化报表,实时定位异常情况。
==原来分析也有不同分类,业务异常分析就是专题分析;小数据需求就是临时分析;制作报表就是报表分析(4.16
答案解析:
分2-3各层面,并列举实习中的工作实例。
34. 除了指标的监控之外,会有分析相关的工作吗?(京东)
参考答案:
专题分析:我独立负责过xxx的专题分析,背景是我们发现xxx现象(可以是指标异常也可以是其他现象),随后我们通过xx和xx层面分析了xx指标,发现了xx现象,于是我们想了xxx策略,并与运营和技术沟通,推进策略落地,策略落地后,我们观测xx指标,发现xx指标的xx变动,表明我们的策略是正向的。
答案解析:
可以说一下自己做的专题分析,从背景介绍+分析思路+策略推进+落地效果来介绍。
35. 举一个具体的例子,在工作中分析了什么问题,对公司有哪些影响和风险,你是怎么给出方案去改善去落地的?(京东)
参考答案:
(项目背景)在xx实习的时候,我们全量上线了一个短视频流的功能,但是全量上线后的数据表现没有达到预期,所以我们做了关于这个短视频流稿件的分析。
(分析过程)我们分别从近一周被消费的短视频情况、高粉博主发布的视频消费情况以及消费情况好的视频的详情分析。
(分析结论)结果发现虽然我们有好的视频但是好的视频并没有得到好的消费。
(策略落地)所以我们去与运营团队沟通分析什么是符合我们app特色的视频,并与算法团队沟通推荐策略。
(落地影响)在我们推进后一周,xx数据和xx数据得到了显著的提高。
36. 你现在独立做分析报告吗?多久做一次?(京东)
参考答案:
之前有尝试过做xx项目的分析报告,我是从xxx方面进行分析,后和我的mentor讨论发现还可以从xxx方面进行分析,随后我们得出了xxx结论,想出来xx策略。大约一个月两次的样子,没有固定的时间,是业务出现问题或者我们在日常分析中发现问题后才回去做分析报告。
答案解析:
不止是回答有分析报告,最好介绍之前准备的分析项目报告,引导面试官接下来的问题。
37. 假设给一个数据集,我会选择的分析步骤是什么样的?(快手)
参考答案:
数据清洗(删除重复项、填充缺失值和删除异常值等)--思考需要分析的问题,得到分析思路--指标整合--可视化
==首先是对数据进行清理,然后再根据问题来确定指标,再可视化
38. 就快手而言,要如何分析在没有营销手段拉动的情况下,什么样的作者/作品类型/作品内容自然增长是具有快速增长增量的(快手)
参考答案:
首先,制订指标体系(七天内涨粉量、播转粉率、点赞率等)识别出快速增长的作者/作品。将这些作者的明细分为消费和供给两方面进行分析。消费包括这些作者的稿件的点赞情况、点赞率情况等指标;供给包括投稿频次,稿件属于哪一类型等。通过这些数据来看是否具有一定的共性规律性。
==想要找到这类人,先指定好区分指标,哪些指标能代表这群人。(4.16
39. 所以你擅长的内容实际上是在现成数据集上做挖掘分析对吗?(快手)
参考答案:
不是,我熟练掌握python对数据集清洗,以及sql从数据库中取出数据。对于其他网络数据,我也会使用python爬虫从网站上爬取数据。
==我会自己用sql从数据库中提取,也会爬虫
40. 实习中如何分析用户流失路径(字节跳动)
参考答案:
做埋点。用户的流失率的分析需要统计次日留存,三日留存,七日留存和一月留存,我们的流程是:
1、画出用户地图,每一步埋点,最后通过对数据的分析判断每一个步骤上的流失率,
2、优化具体的操作步骤,看题主描述的引导页应该是注册——选择喜欢音乐类型——选择喜爱歌手——APP首页,至于进入后的其他环节不太清楚,要对产品核心功埋点,分析每一个核心功能每一个步骤,分析用户在哪一步流失,这些数据的收集和分析有助于优化该功能,提高用户留存。
41. 工作中做过什么专题分析(字节跳动)
参考答案:
介绍专题分析的背景(为什么要做这个专题)-->分析思路(从什么方面进行分析,分析了哪些指标)-->分析结论(发现了什么现象,找出了什么原因)-->策略落地(针对这些现象实施什么策略,与哪些部门进行沟通)-->落地效果
42. 我们假设,飞书现在视频会议功能用户量骤减,你会怎么分析(字节跳动)
参考答案:
首先,验证数据的准确性,不是由于底层数据库或数据口径出现问题而出现的骤降。
随后,将用户进行分层,可以从地区、时段、行业等维度进行划分,看哪部分的用户显著下降。
最后从内部和外部进行原因分析,内部从产品、运营、技术层面找原因,外部从竞品找原因。
43. 那要是你作为一个内部人员的话,怎么分析这些数据呢(字节跳动)
参考答案:
首先,我会先从产品现状发现问题,针对问题进行分析。
随后,我会对问题进行拆解,再构建数据指标体系。
最后我会对用户进行分层,对各个层级的用户统计数据指标体系,看各层级用户是否有明显区别,能够解释问题。
44. 说一个你在实习中做异动指标分析的例子(滴滴)
参考答案:
在某视频直播平台实习时,我做过优质传输率异常值分析。这里的优质传输率指的是a和b在视频通话过程中的丢包情况,优质传输率一般在95%以上,但是当时突然下降到了85%。对此,我们将数据按照省份、传输机房、运营商等维度进行拆解,看各个维度的优质传输率情况。我们发现有两个省份的优质传输率很低,并且后来发现是机房原因,我们把该省份的传输端口手动接入附近省份,次日优质传输率恢复。
45. 如果最近DUA有较大抖动,你怎么去找核心原因?可以添加什么因素在这个分析模型中?(字节跳动)
参考答案:
首先确定是否是底层表或统计口径的问题造成的较大抖动。随后对用户进行分层,分层的维度可以有新老用户、各年龄段用户等,找到是哪部分用户的DAU下滑明显。随后从产品内部和外部进行分析,内部可以从产品、运营和技术上找原因,外部可以从政治经济和竞品分析找原因。
==某些指标出现了较大的波动,得先看看是不是底层数据库或者是数据口径出现按的问题。然后对用户分层来分析。
46. 你刚才提到了版本你会用什么方法分析。(新版本上线分析)(字节跳动)
参考答案:
我主要从以下几个方面写的分析报告:
1.基于什么样的背景(在什么样背景下版本更新了)。
2.为了达成怎样的目的(版本更新针对什么问题,针对哪些人群)。
3.做了怎样的功能(新功能/改动功能有哪些)。
4.监控了哪些指标项。
5.各指标得到的结论。
6.总结这次版本更新的表现。