python数据分析项目——台北101门票销售情况（二）

用户分层

紧接着上一篇文章，现在我们来分析下不同用户（游客）的分层：

user_status = df.pivot_table(index='author', columns='month', values='frequency', aggfunc='count')
user_status = user_status.fillna(0)
user_status = user_status.applymap(lambda x: 1 if x > 0 else 0)

建立一个数据透视表，并先将所有的NAN值改成0，购买过2次及以上的游客统统记为1，为接下来的用户分层做准备：

3.png

def active_status(x):
    status = []
    for i in range(len(user_status.columns)):
        # 本月没有消费
        if x[i] == 0:
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                status.append('unreg')
                
        # 本月有消费
        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'unactive':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
                    
    return pd.Series(status)

上面的代码就是对用户的简单分层：'unreg'是个前期标注，表示非客户；‘unactive'表示非活跃用户，上月有消费，而本月没有消费；'new'表示新客户，之前没有消费，本月有消费；'active'表示活跃用户，连续两月有消费；'return'表示回流用户，本来的非活跃用户，本月有消费。

pivot_user_status = user_status.apply(active_status, axis=1)
pivot_user_status.columns = user_status.columns
# 把浮点转成整数
def convert_int(x):
    if isinstance(x, float) and x >= 0:
        return int(x)
# 将前期标注的'unreg'替换成NAN，不计入后续计算中，T表示index和columns的互换
pivot_user_status = pivot_user_status.replace('unreg', np.NAN).apply(pd.value_counts).T
pivot_user_status_count = pivot_user_status.fillna(0).applymap(convert_int)

上述的变换后，最后得到4种用户每个月的购买情况：

4.png

plt.style.use('seaborn-pastel')
pivot_user_status_count.plot.area()
plt.title('用户分层数量', fontsize=15)
plt.xlabel('月份', fontsize=12)
plt.ylabel('人数', fontsize=12)
plt.savefig('用户分层数量area.png')

用户分层数量area.png

从图中可以看到活跃和回流用户几乎没有，新用户在2018年5月之后开始趋于稳定，而这个时间点也是上篇文章中分析到的销量明显下降的日期；不活跃用户随着时间的积累，曲线符合预期，无异常。

而数据分析中，数量的指标远不如比率的指标，所以我们再将4种用户的数量改成比率，这样才能更直观地看出问题和端倪：

rate = pivot_user_status_count.apply(lambda x: x/x.sum()).applymap(lambda x: float('%.3f' % x))

plt.style.use('fast')
titles = rate.columns.values
labels = (i for i in rate.columns.values)
plt.figure(figsize=(20,10))
plt.subplots_adjust(hspace=0.5)
for x in range(4):
    plt.subplot(f'22{x}')
    rate.loc[:,next(labels)].plot()
    plt.xlabel('月份', fontsize=10)
    plt.ylabel(f'{titles[x]}比例', fontsize=10)
    plt.title(f'{titles[x]}用户比例', fontsize=12)
plt.savefig('各层用户比例plot.png')

各层用户比例plot.png

可以看到门票的销售情况，在2018年5月之后，逐步上升，不管是新用户，还是回流，还是活跃。

用户生命周期

time_max = df.groupby('author').time.max()
time_min = df.groupby('author').time.min()
lfc = (time_max - time_min).reset_index()

5.png

通过简单的描述能够看到，平均的生命周期只有23天，由于上篇文章中分析到的，92%的用户是一次消费用户，所以平均生命周期很短，因此下面我们去除一次消费，分析下二次及以上消费的生命周期：

lfc['lifetime'] = lfc.time/np.timedelta64(1,'D')

plt.figure(figsize=(10,5))
sns.distplot(lfc[lfc['lifetime'] > 0].lifetime, kde=False, rug=False, bins=50, color=sns.xkcd_rgb['brick red'])
plt.title('二次消费以上用户生命周期', fontsize=15, pad=10)
plt.xlabel('天数', fontsize=12, labelpad=5)
plt.ylabel('人数', fontsize=12, labelpad=5)
plt.savefig('二次消费以上用户生命周期hist.png')

二次消费以上用户生命周期hist.png

6.png

结合密度图和均值，能看到二次及以上消费的生命周期拉长到了300天，整体趋势随着时间的流逝而下降。

留存率

user_retention = pd.merge(left=df, right=time_min.reset_index(), how='inner', on='author', suffixes=('', '_min')).drop(columns=['year','rating','amount'])
user_retention['timediff'] = user_retention.time - user_retention.time_min
user_retention['timediff'] = user_retention.timediff.apply(lambda x: x/np.timedelta64(1,'D'))

bins = []
for i in range(0, 1000, 100):
    bins.append(i)
user_retention['timediff_bin'] = pd.cut(user_retention['timediff'], bins=bins)
user_r_tran = user_retention.groupby(['author', 'timediff_bin']).frequency.sum().unstack()
user_r_tran = user_r_tran.fillna(0).applymap(lambda x: 1 if x > 0 else 0)
vals = [float('%.2f'%i) for i in ((user_r_tran.sum()/user_r_tran.count()).values)]

plt.figure(figsize=(10,5))
sns.barplot(user_r_tran.columns.values, vals, palette='PuRd_r')
plt.title('各时间段的用户留存率', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('时间跨度(天)', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.ylabel('留存比率', fontsize=10, color=sns.xkcd_rgb['reddish'])
plt.xticks(rotation=90)
for px, py in zip(range(9), vals):
    plt.text(px-0.2,py+0.004,f'{py}')
plt.savefig('各时间段的用户留存率bar.png')

各时间段的用户留存率bar.png

留存率的计算方式就是以100天为一阶段，购买的用户/总用户，我们可以看到时间跨度越大，留存率越低；台北101门票更多的还是依靠新用户的消费。针对用户留存问题，不建议过多关注。

def diff(x):
    return abs(x.timediff - x.timediff.shift(-1))
lastdiff = user_retention.groupby('author').apply(diff)
plt.figure(figsize=(10,5))
sns.distplot(lastdiff.dropna(), kde=False, color=sns.xkcd_rgb['pure blue'])
plt.title('重复购买的周期', fontsize=12, color=sns.xkcd_rgb['reddish'], pad=10)
plt.xlabel('天数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.ylabel('人数', fontsize=10, color=sns.xkcd_rgb['reddish'], labelpad=6)
plt.savefig('重复购买的周期distplot.png')

重复购买的周期distplot.png

针对二次及以上消费的用户购买周期分析可以发现，这是个典型的头长尾短的图形，也就意味着该类型的产品，是适合一次性消费的购物习惯，和我们上面的留存率，用户分层的分析相符合。

总结：

本次的数据分析项目主要的目的之一是针对零售、电商、移动互联网中经常出现的一些指标的分析：复购率、留存率、用户分层、用户生命周期、购买周期。锻炼针对时间类型数据的处理。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,793评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,567评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,342评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,825评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,814评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,680评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,033评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,687评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,175评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,668评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,775评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,419评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,020评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,978评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,206评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,092评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,510评论 2赞 343

python数据分析项目——台北101门票销售情况（二）

用户分层

用户生命周期

留存率

总结：

推荐阅读更多精彩内容