笔记:
1、 基于RFM的精细化用户管理,可以精细用户管理,更好的对客户进行引流,制定差异化以及定制化的营销。
(另外,给业务部分做分析需要导出excel格式)
2、 使用的库包括:time(用来记录插入数据库时的当前日期)、numpy(基本数据处理)、pandas(日期转换、数据格式化处理、主要的RFM计算过程)
RFM权重:利用sklearn的随机森林库
结果展示:excel可视化图表
3、 案例数据:
观察表格概要、具体数据
——导入库(numpy、pandas,机器学习包sklearn使用RandomForestClassifier)
——读取数据、定义列表以方便后续定制
——数据审查(注意转换前后格式是否一致,包括后续数据是否与真实数据一致)
——数据预处理(enumerate函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标)
——划分区间(对RFM做分箱或者离散化操作)
另外:r、m本身可以区分用户特征,但是f无法区分(主要需要根据行业特性进行设定数据)
原则:中间2个边界值、最大值边界
(问题:最左侧值无法划分为任何区间的)
最小值边界值定义得比数据框中的最小值要小。
——计算RFM因子权重
思路:我们利用会员等级来确定RFM三者的权重,建立一个rfm三个维度与会员等级的分类模型,然后通过模型输出维度的权重。
4、 案例数据结论:
(1)基于图形交互式分析
重点人群分布(柱状图)、重点分组分布
(2)基于RFM分组结果的分析
建立数据透视表——将分析重点转移在重点人群身上
(3)RFM用户特征分析
三类:占比超过10%,占比个位数,占比小个人价值度高
5、 不同行业对RFM的依赖度有差异,包括公司的发展等都会影响到RFM
6、 对R、F、M区间的划分是一个离散化的过程,具体需要划分为几个区间,需要与业务方确认
7、 最重要的是,不要只注重于多数人的定制化分析,一定要全面分析会员人群种类进行分析。