python数据分析项目——台北101门票销售情况(二)

用户分层

紧接着上一篇文章,现在我们来分析下不同用户(游客)的分层:

user_status = df.pivot_table(index='author', columns='month', values='frequency', aggfunc='count')
user_status = user_status.fillna(0)
user_status = user_status.applymap(lambda x: 1 if x > 0 else 0)

建立一个数据透视表,并先将所有的NAN值改成0,购买过2次及以上的游客统统记为1,为接下来的用户分层做准备:


3.png
def active_status(x):
    status = []
    for i in range(len(user_status.columns)):
        # 本月没有消费
        if x[i] == 0:
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                status.append('unreg')
                
        # 本月有消费
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'unactive':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
                    
    return pd.Series(status)

上面的代码就是对用户的简单分层:'unreg'是个前期标注,表示非客户;‘unactive'表示非活跃用户,上月有消费,而本月没有消费;'new'表示新客户,之前没有消费,本月有消费;'active'表示活跃用户,连续两月有消费;'return'表示回流用户,本来的非活跃用户,本月有消费。

pivot_user_status = user_status.apply(active_status, axis=1)
pivot_user_status.columns = user_status.columns
# 把浮点转成整数
def convert_int(x):
    if isinstance(x, float) and x >= 0:
        return int(x)
# 将前期标注的'unreg'替换成NAN,不计入后续计算中,T表示index和columns的互换
pivot_user_status = pivot_user_status.replace('unreg', np.NAN).apply(pd.value_counts).T
pivot_user_status_count = pivot_user_status.fillna(0).applymap(convert_int)

上述的变换后,最后得到4种用户每个月的购买情况:


4.png
plt.style.use('seaborn-pastel')
pivot_user_status_count.plot.area()
plt.title('用户分层数量', fontsize=15)
plt.xlabel('月份', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.savefig('用户分层数量area.png')
用户分层数量area.png

从图中可以看到活跃和回流用户几乎没有,新用户在2018年5月之后开始趋于稳定,而这个时间点也是上篇文章中分析到的销量明显下降的日期;不活跃用户随着时间的积累,曲线符合预期,无异常。

而数据分析中,数量的指标远不如比率的指标,所以我们再将4种用户的数量改成比率,这样才能更直观地看出问题和端倪:

rate = pivot_user_status_count.apply(lambda x: x/x.sum()).applymap(lambda x: float('%.3f' % x))
plt.style.use('fast')
titles = rate.columns.values
labels = (i for i in rate.columns.values)
plt.figure(figsize=(20,10))
plt.subplots_adjust(hspace=0.5)
for x in range(4):
    plt.subplot(f'22{x}')
    rate.loc[:,next(labels)].plot()
    plt.xlabel('月份', fontsize=10)
    plt.ylabel(f'{titles[x]}比例', fontsize=10)
    plt.title(f'{titles[x]}用户比例', fontsize=12)
plt.savefig('各层用户比例plot.png')
各层用户比例plot.png

可以看到门票的销售情况,在2018年5月之后,逐步上升,不管是新用户,还是回流,还是活跃。

用户生命周期

time_max = df.groupby('author').time.max()
time_min = df.groupby('author').time.min()
lfc = (time_max - time_min).reset_index()
5.png

通过简单的描述能够看到,平均的生命周期只有23天,由于上篇文章中分析到的,92%的用户是一次消费用户,所以平均生命周期很短,因此下面我们去除一次消费,分析下二次及以上消费的生命周期:

lfc['lifetime'] = lfc.time/np.timedelta64(1,'D')

plt.figure(figsize=(10,5))
sns.distplot(lfc[lfc['lifetime'] > 0].lifetime, kde=False, rug=False, bins=50, color=sns.xkcd_rgb['brick red'])
plt.title('二次消费以上用户生命周期', fontsize=15, pad=10)
plt.xlabel('天数', fontsize=12, labelpad=5)
plt.ylabel('人数', fontsize=12, labelpad=5)
plt.savefig('二次消费以上用户生命周期hist.png')
二次消费以上用户生命周期hist.png

6.png

结合密度图和均值,能看到二次及以上消费的生命周期拉长到了300天,整体趋势随着时间的流逝而下降。

留存率

user_retention = pd.merge(left=df, right=time_min.reset_index(), how='inner', on='author', suffixes=('', '_min')).drop(columns=['year','rating','amount'])
user_retention['timediff'] = user_retention.time - user_retention.time_min
user_retention['timediff'] = user_retention.timediff.apply(lambda x: x/np.timedelta64(1,'D'))

bins = []
for i in range(0, 1000, 100):
    bins.append(i)
user_retention['timediff_bin'] = pd.cut(user_retention['timediff'], bins=bins)
user_r_tran = user_retention.groupby(['author', 'timediff_bin']).frequency.sum().unstack()
user_r_tran = user_r_tran.fillna(0).applymap(lambda x: 1 if x > 0 else 0)
vals = [float('%.2f'%i) for i in ((user_r_tran.sum()/user_r_tran.count()).values)]

plt.figure(figsize=(10,5))
sns.barplot(user_r_tran.columns.values, vals, palette='PuRd_r')
plt.title('各时间段的用户留存率', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('时间跨度(天)', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.ylabel('留存比率', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.xticks(rotation=90)
for px, py in zip(range(9), vals):
    plt.text(px-0.2,py+0.004,f'{py}')
plt.savefig('各时间段的用户留存率bar.png')
各时间段的用户留存率bar.png

留存率的计算方式就是以100天为一阶段,购买的用户/总用户,我们可以看到时间跨度越大,留存率越低;台北101门票更多的还是依靠新用户的消费。针对用户留存问题,不建议过多关注。

def diff(x):
    return abs(x.timediff - x.timediff.shift(-1))
lastdiff = user_retention.groupby('author').apply(diff)
plt.figure(figsize=(10,5))
sns.distplot(lastdiff.dropna(), kde=False, color=sns.xkcd_rgb['pure blue'])
plt.title('重复购买的周期', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('天数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.ylabel('人数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.savefig('重复购买的周期distplot.png')
重复购买的周期distplot.png

针对二次及以上消费的用户购买周期分析可以发现,这是个典型的头长尾短的图形,也就意味着该类型的产品,是适合一次性消费的购物习惯,和我们上面的留存率,用户分层的分析相符合。

总结:

本次的数据分析项目主要的目的之一是针对零售、电商、移动互联网中经常出现的一些指标的分析:复购率、留存率、用户分层、用户生命周期、购买周期。锻炼针对时间类型数据的处理。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容