用户画像分析数据处理的思路

参考自modelwahle上的用户[广发英雄帖]所做的数据分析案例,提取思路部分,仅供参考。

数据的预处理

  1. 为提高运行效率,会随机抽取20%的数据样本
    df = df_orginal.sample(frac=0.2,random_state=None);
  2. 预览数据的类型df.info()和缺失值df.isnull().sum(),并去掉缺失值太多的数据列df.drop();
  3. 日期与时段处理,将时间拆分为日期和时段,时段又分为'凌晨'、'上午'、'中午'、'下午'、'晚上';
  4. 制作用户标签表,生成用户标签表,后续制作好的标签都加入这个表中;

用户行为标签

1. 用户浏览活跃时间段

对用户和时段分组,统计浏览次数并且统计浏览次数最多的时段并提取,可并列,添加到用户标签表;
2. 用户购买活跃时间段

逻辑与1相同;

3. 关于类目的用户行为

1⃣️浏览最多的类目

用户与类目进行分组,统计并选取每个用户浏览次数最多的类目,可并列,添加至标签表中;

2⃣️收藏最多的类目

3⃣️加购最多的类目

4⃣️购买最多的类目

4. 30天用户行为

1⃣️近30天购买次数

将加购行为按用户进行分组,统计次数

2⃣️近30天加购次数
将加购行为按用户进行分组,统计次数

3⃣️近30天活跃天数
对用户进行分组,统计活跃的天数,包括浏览、收藏、加购、购买

5. 7天用户行为

1⃣️近7天购买次数
统计七天内的数据

df[df['date']>datetime.strptime('2014-12-11', '%Y-%m-%d')]

2⃣️近7天加购次数

3⃣️近7天活跃天数

6. 最后一次行为距今天数

1⃣️上次浏览距今天数

2⃣️上次加购距今天数

3⃣️上次购买距今天数

7. 最近两次购买间隔天数
8. 是否浏览未下单

统计同时具备两者特征的用户
9. 是否加购未下单

统计同时具备两者特征的用户

用户属性标签

1. 是否复购用户

统计每个用户总购买次数判断是否大于2

未购买的用户标记为‘未购买’,有购买未复购的用户标记为‘否’,有复购的用户标记为‘是’
2. 访问活跃度

30天内访问人数和次数的关系来判断活跃阈值

如此图反映出15次是活跃度拐点
3. 购买活跃度

30天内购买人数和次数的关系

14次为高低的拐点
4. 购买的品类是否单一

判断每个用户购买品类是否为1
未购买的用户标记为‘未购买’,不为1的用户标记为‘否’,为1的用户标记为‘是’

5. 用户价值分组(RFM)

此处仅判断购买人数和距今天数的关系,访问异常为双十二



用户个性化标签

数据预处理

对所有数据按'user_id','item_id','behavior_type','item_category','time'进行分组
1. 应用TF-IDF算法计算标签权重

TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率),是一种加权算法,即次数*频率。
计算每个用户身上每个标签的个数和总数,以及每个标签的行为数;
应用TF-IDF计算标签权重

2. 建立行为类型权重维表

浏览行为,权重0.3
收藏行为,权重0.5
加购行为,权重1
购买行为,权重1.5

3. 计算用户标签权重

标签权重衰减函数
本项目中,加购行为的权重不随着时间的增长而衰减,而购买、浏览、收藏随着时间的推移,其对当前的参考性越来越弱,因此权重会随着时间的推移越来越低

标签总权重 = 行为类型权重* 衰减系数* 行为数 *TFIDF标签权重

用户偏好标签

1. 计算两两标签共同对应的用户数

要计算两两标签的相似性,计算量太大,服务器性能有限,在此只选取有过购买的标签

2. 计算每个标签对应的用户数

将两表正交,得到每个用户下,其所有标签的的两两组合
删除重复值,即同一用户由上述正交得到的数据表中,两个标签为同一标签的数据
用两个标签分组,计算用户数,即每两个标签同时出现在不同的用户中的个数
计算每一个标签对应的不同的用户数,即每个标签出现在不同的用户中的个数
计算标签1有关的用户数,计算标签2有关的用户数

3. 计算两两标签之间的相似性

余弦相似度计算两两标签的相关性

4. 对每个用户的历史标签权重加总

对用户、标签进行分组,计算每个用户每个标签的权重和

5. 计算推荐给用户的相关标签

将用户与所有与其有关的标签作对应
计算推荐得分值 得分值 = 行为权重*相关性

对所有数据按得分值排序,再按’user_id'分组,得到每个用户有关的得分值最高的10个标签

群体用户画像标签

1. 随机指定性别并划分群体
2. 使用TF-IDF计算不同人群的标签偏好

计算每个性别、每个标签的权重加总

计算每个性别的所有标签的权重加总

使用TF-IDF算法计算每个性别对每个标签的偏好权重值
对所有数据按得分值排序,再按性别分组,得到每个性别得分值最高的10个标签
前半部分较为容易理解,后半部分涉及到算法思路,需要一定的算法能力,存档整理供以后慢慢学习。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容