Spark项目之简书百万用户动态分析与查询展示

先看下数据分析的结果大概长什么样!

这个项目主要是对简书所有用户的动态做分析。

0.分析什么

说是对动态做分析,啥是动态?就像你微信朋友圈的发表、点赞、评论、被评论一样。你在简书的操作也被记录下来啦,像这样:

简叔CEO简叔的动态

在简书的可见动态分为八种类型:发表评论,喜欢文章,赞赏文章,发表文章,关注用户,关注专题,点赞评论,关注文集 。

1.数据从哪里来

当然还是用jsoup写爬虫代码来简书抓了,一个个复制粘贴是不可能的,要又要不到,只能写爬虫来抓啊,这样子才能维持数据来源……

看,蛮快的!数据嗖嗖的就来了,还不是美滋滋~

爬数据保存到Mysql数据库

2.分析过程

采用Spark Sql定期对数据库中的最新数据进行分析,将分析结果再次保存回数据库(存放在一些新的表中)。

3.分析结果

使用SSM框架搭建一个搜索页面,用户输入任意一个简书用户的ID,可以查询出该用户的各类动态分析结果(结果采用ECharts展示)。

======

先以简叔为例吧,记得刚注册简书,就收到一个私信,我还以为哪妹子看上我了!
嗯,扯远了。咱还是来认(hu)真(luan)分析一下数据吧。

3.1基本信息

截止至2017-08-20 18:32:11,也就是我现在码这段字的前几秒。简叔关注了2346个用户(说好的上限1000呢~)。粉丝87137个,粉丝排行榜前几名啦。
发表文章122篇,收获喜欢30137,喜欢文章11292,嗯?点了那么多喜欢?
发表评论8454次,打赏文章2128次。

3.2 第一次


随着动态越来越多,因为动态按时间倒排,你可能翻了跟多页还是不知道你在简书第一个关注的用户,喜欢的文章,发表的评论。没关系,我记得(能快速找出来……)!

咱们看看简叔的第一次!

2012-09-05 11:26:57
注册,加入简书。

(我以为是第一个注册用户,去抓下来的用户中查了下,larryzhao是2012-09-05 11:08:37注册的,早十几分钟。看了介绍,这个也是简书联合创始人。应该没有比这早了的吧)

2012-12-20 15:31:53
第一次发表文章:价值主张的工作表

2012-12-13 17:19:31
第一次喜欢文章:简书发表的献给写作者的 Markdown 新手指南

2013-05-23 05:36:28
第一次关注用户:赵云波

2013-12-08 11:40:56
第一次对文章 为什么你应该每天写作 评论:
“我觉得哪怕真是有兴趣,要坚持每天写作也是非常困难的事情。一周写上一篇,或者一个月写上一篇,这种才是休闲活动。「每天写作」这个行为绝不可能成为一项「休闲活动」。可以做到「每天写作」的人,要么他是一个真正从事文字工作的人,要么他对「每天写作」这件事情有一种强迫症。”

嗯,同意简叔3.6年前的观点。天天喊着「每天写作」大都是文字工作者。上班族们,不要一听别人的鼓动就给自己立个誓,到时候打脸的可是自己啊!一天记流水账似的一篇,干嘛,感动自己啊?

2014-03-27 12:37:08
第一次关注文集:社区的艺术

文集这个概念在别的用户浏览的时候好像不是那么重要,所以一般关注文集较少或没有。

2014-07-30 06:13:35
第一次关注专题:毒眼寻珠

2015-03-30 11:47:11
第一次打赏文章 :刘淼 发表的20150318村上问答之「我的生活正发生怪事」

2015-07-27 17:01:30
第一次赞了评论: 我的比较波折,第一次发被快递的临时工搞丢了,简书服务不错,帮我和中通交涉,中通赔了钱,后来补发了一份。书看完一本了,还不错诶,好评!
这个文章已经不在了,文章应该是关于简书出版的书。

3.3 各种动态占比

动态类型占比.gif

喜欢文章、发表评论、关注用户、赞赏文章,这四种占比较高,说明简叔还是很关注和支持简书的用户创作。

3.4月度动态趋势

月度动态.gif

总体呈波段上升趋势,简叔在简书平台还是很活跃的。

3.5 日动态趋势

自注册以来,每天的动态次数。像这样,密密麻麻

峰值是 2016-01-04,这天动态次数212次。因为图较大,降低了帧率,所以看起来有些卡顿。

3.6 时动态趋势

如果按11点以后算熬夜的话,可以看出简叔还是有不少熬夜情况的。大叔,注意身体!

白天各个时间段浏览简书较均衡,毕竟是老板,没有确切的工作时间段。有事没事刷下简书!

3.7 周内发表文章频次

发表文章.gif

圆形气泡越大,代表发文章频率越高。简叔非工作时段发文还是蛮多的。
其他用户分析的,文字工作者一般都是集中在周一到周五,上班族周六周日更集中一些。
要想诗和远方,还是要先解决眼前的苟且。

3.8 周内喜欢文章频次

喜欢文章.gif

啊!什么鬼?一个个连续的饱满的小球。09:00-15:00,21:00-0:00。这两个时间段内简叔喜欢文章很频繁,下午少一些。

3.9 周内关注用户频次

关注用户.jpg

早上关注用户多一些?

3.10 周内打赏频次

打赏.jpg

晚上打个赏?

3.11 发表的评论

对所有评论进行分词,词频统计后制作出词云,然后……

评论词云.gif

哈哈哈,简叔天天好开心啊!!!

愿大家都有简叔的心态!!
你还愣着干什么?笑啊!

https://blog.csdn.net/u012940753/article/details/51254091

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,033评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,725评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,473评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,846评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,848评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,691评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,053评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,700评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,856评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,676评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,787评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,430评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,034评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,990评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,218评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,174评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,526评论 2 343

推荐阅读更多精彩内容