Spark开发电商日志分析用户行为聚合功能练习

项目介绍

电商网站的各种用户行为进行分析

访问首页 → 点击商品 → 添加购物车 → 结算
访问首页 → 输入关键词 → 点击商品列表 → 点击商品→ 关闭网页
访问详情页 → 查看推荐商品 → 点击商品列表 → 点击商品→ 购买
广告页 → 商品页 → 购物车

项目目的

为产品部门、运营部门、决策部门

提供决策数据支持
提供优化指导思路

企业开发流程

需求分析 → 方案设计 → 数据设计 → 编码实现 → 功能测试 → 解决技术问题（数据倾斜等）→ 性能调优

用户需求

可以根据使用者指定的某些条件，筛选出指定的一些用户（有特定年龄、职业、城市）；
例如：
选择年龄： 10 到 50周岁
选择时间：开始时间2017-08-20 结束时间2017-08-20
选择性别：女性
查询符合条件的所有用户

名词解释

用户访问session

用户session指的是：
从用户第一次进入页面开始，到用户关闭浏览器（长时间没有操作）结束。
在这段时间范围内，所有的操作（可能做了几十次、甚至上百次操作），都称为是一个用户行为。

在一个Session过程中SessionId是不变的，由多个id相同的Session组成用户的一条操作行为

一个用户一天可以有多个Session

数据结构

数据结构 user_visit_action（Hive表）

date：日期，代表这个用户点击行为是在哪一天发生的
user_id：代表这个点击行为是哪一个用户执行的
session_id ：唯一标识了某个用户的一个访问session
page_id ：点击了某些商品/品类，也可能是搜索了某个关键词，然后进入了某个页面，页面的id
action_time ：这个点击行为发生的时间点
search_keyword ：如果用户执行的是一个搜索行为，比如说在网站/app中，搜索了某个关键词，然后会跳转到商品列表页面；搜索的关键词
click_category_id ：可能是在网站首页，点击了某个品类（美食、电子设备、电脑）
click_product_id ：可能是在网站首页，或者是在商品列表页，点击了某个商品（比如呷哺呷哺火锅XX路店3人套餐、iphone 6s）
order_category_ids ：代表了可能将某些商品加入了购物车，然后一次性对购物车中的商品下了一个订单，这就代表了某次下单的行为中，有哪些
商品品类，可能有6个商品，但是就对应了2个品类，比如有3根火腿肠（食品品类），3个电池（日用品品类）
order_product_ids ：某次下单，具体对哪些商品下的订单
pay_category_ids ：代表的是，对某个订单，或者某几个订单，进行了一次支付的行为，对应了哪些品类
pay_product_ids：代表的，支付行为下，对应的哪些具体的商品

数据结构 user_info（Hive表）

user_id：其实就是每一个用户的唯一标识，通常是自增长的Long类型，BigInt类型
username：是每个用户的登录名
name：每个用户自己的昵称、或者是真实姓名
age：用户的年龄
professional：用户的职业
city：用户所在的城市

数据结构 task（MySQL表）

task_id：表的主键
task_name：任务名称
create_time：创建时间
start_time：开始运行的时间
finish_time：结束运行的时间
task_type：任务类型，就是说，在一套大数据平台中，肯定会有各种不同类型的统计分析任务，比如说用户访问session分析任务，页面单跳转化率统计任务；所以这个字段就标识了每个任务的类型
task_status：任务状态，任务对应的就是一次Spark作业的运行，这里就标识了，Spark作业是新建，还没运行，还是正在运行，还是已经运行完毕
task_param：最最重要，用来使用JSON的格式，来封装用户提交的任务对应的特殊的筛选参数

数据Session聚合

将多条id相同的记录聚合成一条记录：意思是说将多个Action组成一个动作序列
User_visit_action数据量庞大
1000万日活用户，就能产生5到10亿条用户行为数据
如果我们做一次Session的聚合，数据量将大大下降

我们将单个操作，比如点击、搜索等，组成一个行为序列，用时间顺序排序，表明用户都做了哪些操作，前后操作顺序是什么样？

下面开始搭建开发环境

项目地址

https://github.com/xy83918/ECLA

开发IDE

https://www.jetbrains.com/idea/download/#section=windows

jdk 下载1.7

http://www.oracle.com/technetwork/java/javase/archive-139210.html

mysql

https://www.mysql.com/downloads/

MySQL windows版
http://sw.bos.baidu.com/sw-search-sp/software/d59738042c504/mysql-5.7.17.msi

mysql脚本


CREATE DATABASE spark_project
USE spark_project
/*
SQLyog Ultimate v12.09 (64 bit)
MySQL - 5.7.17-log 
*********************************************************************
*/
/*!40101 SET NAMES utf8 */;

create table `task` (
    `task_id` int (11),
    `task_name` varchar (765),
    `create_time` varchar (765),
    `start_time` varchar (765),
    `finish_time` varchar (765),
    `task_type` varchar (765),
    `task_status` varchar (765),
    `task_param` text 
); 
insert into `task` (`task_id`, `task_name`, `create_time`, `start_time`, `finish_time`, `task_type`, `task_status`, `task_param`) values('1','测试任务',NULL,NULL,NULL,NULL,NULL,'{\"startAge\":[\"10\"],\"endAge\":[\"50\"],\"startDate\":[\"2017-07-26\"],\"endDate\":[\"2017-07-26\"],\"sex\":[\"male\"]}');

注意Task表中最后一个列task_param中，Json的StartDate和EndDate需要设置成今天，因为mock数据的时候，只有今天的数据

加载main方法第 60多行

System.out.println (sessionid2actionRDD.count ());
        for (Tuple2<String,Row> tuple: sessionid2actionRDD.take ( 10 )){

            System.out.println (tuple._2 ());
        }

程序的主入口

SessionAnalysis

main方法

最后编辑于：2017.12.09 02:40:37

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,324评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,303评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,192评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,555评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,569评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,566评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,927评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,583评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,827评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,590评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,669评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,365评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,941评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,928评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,159评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,880评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,399评论 2赞 342