用Python实现RFM模型——互联网产品用户分层必备技巧

1.前言

RFM模型即"R"——Recency(最近一次消费时间)、"F"——Frequency(一段时间内消费频次)、"M"——(一段时间内消费总额)。这三个指标可以将我们的用户划分成不同的等级和层次,目的是为了衡量他们的用户价值,从而能够更准确地将成本和精力花在更精确的用户层次身上。一个典型的例子就是针对一个明显无意愿的流失用户,对其继续push自己的核心产品,费时费力也费钱。

2.如何用Python建立RFM模型

RFM模型,虽然字眼中带着“模型”二字,但实际它根本不需要任何的算法支撑,和数据建模中的逻辑回归,聚类分析等是完全不同的概念。因而实现RFM的工具和方法有很多:SQL, Excel, R等等都能够做到,当然Python也不例外,RFM模型的核心就是将三个指标进行标签化,然后根据实际场景业务需求进行分层即可。下面的文章我就通过一个简单的例子来通过代码实现RFM模型的建立。

2.1数据导入

链接:https://pan.baidu.com/s/1YbZrdsg2dOoe_5lylTwhQw
提取码:nf2f
数据是某电商的一款SKU于2018年的销售表单,字段本身只有4个,但是足够建立RFM模型了。

import os
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.serif'] = ['SimHei']
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.set_style('ticks', {'font.sans-serif':['simhei','Droid Sans Fallback']})

2.2 数据清洗

df = pd.read_csv('sale.csv')
df.drop_duplicates(subset=['ORDERID'],keep='first',inplace=True)
df.dtypes
dtypes.png

可以看到我们各个字段的数据类型,注意到其中的ORDERDATE是字符串类型,而不是时间Datetime类型,这个需要在后面进行转换。其它字段都正常。

df[df.isna().values == True]
df = df.dropna(how='any', axis=0)
查看空值.png

可以看到上面有些数据出现了空值,由于空值无法计算出RFM,所以直接删除。

plt.figure(figsize=(10,5))
sns.distplot(df.AMOUNTINFO)
数据整体分布.png

通过直方图我们可以很清晰地看到数据的整体分布情况,呈现偏态分布,不过没有负值,因此不需要处理异常值,>0的值都是合理的。

df['ORDERDATE'] = pd.to_datetime(df['ORDERDATE'])
df['Datediff'] = (pd.to_datetime('today') - df['ORDERDATE']).dt.days
df
添加一列R.png

数据的最后处理,就是将ORDERDATE转换成Datetime时间类型,并添加一列时间差,作为"R"的计算指标。

2.3数据分析

R_Agg = df.groupby(by=['USERID'])['Datediff']
R_Agg = R_Agg.agg([('最近一次消费','min')])

F_Agg = df.groupby(by=['USERID'])['ORDERID']
F_Agg = F_Agg.agg([('2018年消费频次','count')])

M_Agg = df.groupby(by=['USERID'])['AMOUNTINFO']
M_Agg = M_Agg.agg([('2018年消费金额',sum)])

rfm = R_Agg.join(F_Agg).join(M_Agg)
rfm

上面的步骤是分别计算了RFM模型中的三个指标: R,F,M,将其合并成一张新表,如下图:


RFM表1.png

然后就是最关键的一步了,通过pd.cut方法,将用户分层并打上标签,这里我用的分层方法是python中的quantile函数,因为我们之前的直方图看到是偏态分布,所以取均值来分层的误差会很大,这时候选择分位数来分层会更好。

def rfm_convert(x):
    rfm_dict = {0:'R',
                2:'M'}
    try:
        for i in range(0,3,2):
            bins = x.iloc[:,i].quantile(q=np.linspace(0,1,num=6),interpolation='nearest')

            if i == 0:
                labels = np.arange(5,0,-1)
            else:
                labels = np.arange(1,6)

            x[rfm_dict[i]] = pd.cut(x.iloc[:,i],bins=bins,labels=labels,include_lowest=True)
    except Exception as e:
        print(e)

rfm_convert(rfm)

上面这个函数的目的是将R和M按照1-5的等级打上标签,给用户分层,但由于F的数值大多集中在1,即消费频次只有1次,所以无法使用分位数方法来均分出5个等级,因此我下面额外再使用其它方式将其打上标签:

bins = [1,3,5,12]
labels = np.arange(1,4)
rfm['F'] = pd.cut(rfm['2018年消费频次'], bins=bins, labels=labels, include_lowest=True)
rfm.insert(4,'F',rfm.pop('F'))
rfm

F的分层是由我手动区分的,由于RFM模型本身就是根据不同场景和业务需求来建立的,因此这里的F我就根据数据的实际分布情况来手动分层了。


RFM表2.png

好,那么至此RFM模型已经有了个雏形,最后要做的,就是打上标签:

rfm_model = rfm.filter(items=['R','F','M'])
def rfm(x):
    return x.iloc[0]*3+x.iloc[1]+x.iloc[2]*3
rfm_model['RFM'] = rfm_model.apply(rfm,axis=1)
bins = rfm_model.RFM.quantile(q=np.linspace(0,1,num=9),interpolation='nearest')
labels = ['流失客户','一般维持客户','新客户','潜力客户','重要挽留客户','重要深耕客户','重要唤回客户','重要价值客户']
rfm_model['Label of Customer'] = pd.cut(rfm_model.RFM, bins=bins, labels=labels, include_lowest=True)
rfm_model
RFM表3.png

这里的RFM分数根据具体场景和业务来分配权重,这里我给的权重比是3:1:3,,那么其实也可以不要这个加权分数,完全根据单独的R,F,M来标签,比如R>=4、F>1、M>=4的,算核心用户。

4.数据可视化

以上就是RFM模型了,那么有了模型之后,我们就能直观地看到各个层级下的用户分布以及用户价值了:

from pyecharts.charts import Grid, Pie, Bar
from pyecharts import options as opts
tmp = rfm_model.groupby('Label of Customer').size()
t = [list(z) for z in zip(tmp.index.values, tmp.values)]
# 绘制饼图
pie = (
    Pie()
    .add('',t,
     radius=['30%','75%'],
     rosetype='radius',
     label_opts=opts.LabelOpts(is_show=True))
    .set_global_opts(title_opts=opts.TitleOpts(title='消费者分层结构',pos_left='center'),
                     toolbox_opts=opts.ToolboxOpts(is_show=True),
                     legend_opts=opts.LegendOpts(orient='vertical',pos_right='2%',pos_top='30%'))
    .set_series_opts(label_opts=opts.LabelOpts(formatter='{b}:{d}%')))
pie.render_notebook()
消费者分层结构.png

可以看到无价值的流失客户占据了很大一部分,但是同时我们也要关注到,新客户的占比量是相当大的,不过,单纯看占比是没有意义的,因为我们最终的目的是盈利,因此下面我们再结合消费金额分布情况,来看下我们实际应该针对哪些层级的用户进行精准投放:

consumer_r = df.groupby('USERID').AMOUNTINFO.agg([('消费总额',sum)])
new_rfm = rfm_model.join(consumer_r)
filter_list = ['流失客户','新客户','重要挽留客户','重要价值客户']
new_rfm = new_rfm[new_rfm['Label of Customer'].astype('<U').isin(filter_list)]
new_rfm['Label of Customer'] = new_rfm['Label of Customer'].astype('<U')
tmp = new_rfm.groupby('Label of Customer').消费总额.sum()
tmp = tmp.sort_values()
from pyecharts.charts import Bar
yindex = []
for i in list(tmp.values):
    yindex.append(int(i))
# 绘制柱状图
bar = (Bar(init_opts=opts.InitOpts(theme='white',bg_color='papayawhip'))
       .add_xaxis(list(tmp.index.values))
       .add_yaxis('消费者分层',yindex,color='lightcoral', category_gap='70%')
       .set_global_opts(title_opts=opts.TitleOpts(title='不同分层消费者2018年消费总额',pos_left='center',title_textstyle_opts=opts.TextStyleOpts(color='lightcoral')),
                        legend_opts=opts.LegendOpts(pos_top='bottom'),
                        toolbox_opts=opts.ToolboxOpts(is_show=True),
                        yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(formatter='{value}')))
)
bar.render_notebook()
不同分层消费者2018年消费总额.png

结合上面的饼图,我们可以最终得出结论,虽然新客户的人群占比是最大的,但是他们实际贡献的金额并不高,所以我们没有必要在拉新这一块花费太多心思和精力,而应该着重将运营的重心放在“留存”和“变现”上,如何留住核心收入来源的“重要价值用户”以及通过用户触达的各种方法,召回“重要挽留客户”,是现阶段的任务。

5.总结

通过上面的RFM模型建立和可视化,我们其实能够发现,通过对用户的精准分层,我们能够对用户价值有个更直观的感受,从而对互联网产品的运营,起到点对点服务的作用。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,126评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,254评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,445评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,185评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,178评论 5 371
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,970评论 1 284
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,276评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,927评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,400评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,883评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,997评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,646评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,213评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,204评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,423评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,423评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,722评论 2 345

推荐阅读更多精彩内容