文·blogchong
一、俺不是打广告的
本文的标题是“如何打造类似数据虫巢官网系列教程之XX”,那主角当然我们的“数据虫巢官网”,不多说上链接www.mite8.com。
直接上链接好像有点打广告的嫌疑,其实真不是,首先说一下,数据虫巢主要的外在体现是爬虫+数据分析+数据可视化,应简书互联网专题IT彭大主编之邀,特地做一个这个系列。
其实目的很明确,让玩爬虫、数据分析、以及数据可视化的同行朋友,打通数据从收集,到处理,到分析,到网站数据可视化整套流程。
整个数据流向的掌握,外在的展现,细节的把控,最终让人看到你的各种炫丽的图表以及相关劳动成果,是一件很有成就感的事。
当然,这是感官上的好处,实际的好处就是,你把整个流程涉及到技术都掌握了,那么,不想成为半个大牛都难。
对于玩爬虫的应届生朋友,或者有找相关岗位工作的朋友,你把你做好的类似数据虫巢官网这种数据可视化站点,甩到面试官脸上,你的面试总成绩分分钟可以上扬30%。
因为就这一个东西,说不定比你简历上的什么什么项目,都更好使,因为能直接看到呀,更具有说服力。
当然,不能真甩,真甩也别告诉是我教你的,其次你要对其中整个流程环节涉及的技术都清楚,最起码的标准就是面试官难不倒你。
二、上图,不然你们不信
这是进入到“数据虫巢官网”后直接看到的首页导航,整体网站分首页模块、政务舆情模块、行业洞察模块、大数据观,以及关于我们五个模块。
其实首页没有过多东西,就是把中间两个模块里的一些比较给力,比较有震撼性的图表搬到首页展示,别让首页空着。
比如,这张图的第一个图表,就是政务舆情模块中的一个图表,是动态图哟,整个图表会随时间轴一秒变化一次,做轮询。
这也是首页中从其他模块拿出来的图表,这是行业洞察里头的一个图表,2016年一整年的数据变化曲线图,看着北京的雾霾影响波动还是蛮有意思的。
大伙儿也可以查一下北京雾霾爆表新闻,看看跟上面的波动能不能对的上,反正我是核查过了,基本上影响波动是一致的,说明俺的分析还是蛮准的嘛。
这同样是首页模块中,一个图表,这个图表也是个动态图,数据不复杂,整个图表是个典型的动态迁移的数据可视化例子,看看就好啦。
这是首页模块的底部信息栏,包括了联系信息,以及一个公号的二维码,看着是不是很正式,跟人家商业的数据官网查不了哪去吧,简直以假乱真,当然,这也不是假的。
这是政务舆情模块的入口页,从名称上也知道,这部分的重点在于做政务方面的舆情分析相关的事。
这部分包括财政统计分析子模块、问政舆情子模块、教育舆情子模块、外界口碑舆情子模块、人才&招聘舆情子模块、房产舆情子模块,数据是我从地方政府网站、门户网站、地方论坛等爬取而来。
这部分截图是政务舆情中,财政分析子模块里的部分数据可视化报表的截图,涉及到面积图、折线图、柱状图,还有一些更复杂的可视化图表等等。
这部分截图是人才&招聘舆情子模块涉及的部分数据可视化报表截图,涉及到变形的占比图,曲线图,以及图表的组合使用等等。
这是行业洞察模块的入口页,行业洞察其实是对某一方面的问题从数据分析层面去剖析。
目前有两个子模块,如图,一个从口罩购买的角度分析全国受雾霾的影响情况分析,另一个是以各大主流招聘大数据相关岗位的数据来分分析大数据职位的需求情况。
前部分数据是爬自京东的口罩购买评论数据,后部分数据是爬自各大主流招聘网站。
其实还有一个对电影《长城》的用户反馈分析,当时《长城》热播,争议颇大,所以爬取了不少豆瓣的电影评论数据,做了具体的相关分析,包括涉及的热点、评论的情感分析等等。
这部分是雾霾影响分析中,涉及的地域分析情况,典型的结合地图,做的数据可视化,当然这个子模块还有其他数据可视化形式,鉴于截图就没法一个个细说了。
这部分是对于大数据需求分析中的部分图表,其中会涉及到玫瑰图、词云、横向柱状图等数据可视化的形式。
这个大模块是大数据相关的文章合集,基于数据可视化做的各种数据分析,再辅以大数据相关的文字,能文能武,简直绝了。
这块的数据其实就是来自我的大数据公众号,与官网同名,“数据虫巢”。
这部分对文章划了四个不同的类型:
1 大数据观点,这部分文章偏大数据行业话题讨论
2 大数据挖掘,这部分主要是与大数据结合的价值挖掘部分相关的文章
3 大数据技术,这部分的文章偏大数据技术相关的东西
4 感悟杂谈,这部分的文章比较杂,有生活感悟、工作感叹,鸡汤等等乱七八糟的
最后一个大模块,就是关于我们,好吧,这个看着挺唬人的,但是,没有这个部分怎么让整个网站看着更“正规”呢?!
哈哈,已经有不止一个人对我说,你们公司的官网挺炫啊,我能怎么说(得意的大笑三声)。
上面这些基本上数据虫巢官网的所有模块了,当然截图只是截图而已,只是一部分,并且很多动态的数据可视化效果无法展示,想要了解更多只能上去看看咯。
除此之外,页顶的背景中,还有很炫的原子散漫效果,鼠标移动上去,原子效果会聚集、磁化,看上去更有科技感、数据感了,是不是更加高端大气上档次了。
是的,我要带你们打造的就是这么一款看着比一些科技公司官网看起来更炫的个人网站,集个人技术大成的技术名片,对外吹牛逼的好工具,通往升职加薪的大门,迎娶白富美的花轿...
好吧,我自己都有点编不下去了~~额,总之,就是这么一个东西啦。
三、飙完图,咱来说技术
以下几点,我认为你们需要关注:
1 如何解决数据源的问题:爬。所以它会涉及爬虫的相关知识。
2 如何做数据的存储:MySQL。额,可能不是你们想象中的Hadoop,这点几十万上百万的数据,MySQL就够了嘛,要个蛋HDFS,我有罪,让你们失望了,没用高端大气上档次的Hadoop。
3 如何做数据分析:Java逻辑处理,数据清洗,再加MySQL的统计分析,所有的业务结果数据就出来了,没有想象中复杂。
4 如何构建一个网站:阿里云服务器一枚+域名一枚+Spring boot。是的,你需要自己搞个云服务器,上面搭载数据库、爬虫服务、数据清洗进程,以及你的网站代码,听着就有点复杂,实际真有点复杂。
5 如何做出这么炫丽的可视化图表:Echarts。大百度开发的可视化框架,流弊的不行不行,好用的不得了。
6 如何解决文字这块的内容:这个没辙,自己写?算了,你还是直接用我的文章吧,俺不受版权费。
上面的信息,我们来总结一下会涉及到哪些技术:
1 你需要会爬虫,不管是Python也好,Java框架也好,都行,只要能拿到数据,当然,为了拿到数据,你需要会做抓包分析,会一些基础的破解反爬策略。
2 你得会数据库操作,最基础的MySQL得会一些,增删改查,数据存储,建表删表,数据的清洗转换,这个很基础的了,不会自己百度吧。
3 对于云服务器的一些东西需要了解,最起码会XShell客户端的使用吧,不然你怎么登陆到你的服务器中,学会配置防火墙策略等等。
4 基础的Linux操作得会点,不然怎么玩云服务器,还指望着你在上头自己安装MySQL,自己安装一些必要的工具、例如Python、Java之类的呢,java服务的部署,一些Shell脚本的编写等等。
5 域名相关的知识得会些,最起码得知道一个网站是需要域名的吧,知道从哪购买域名,购买域名之后知道怎么关联实际的IP等等相关的知识。
6 Java后端框架得会多一些,这里用的是Spring boot,简单轻便的后端框架,强烈推荐,不妨再告诉你们,前端其实也是用这个一起写的,很古老的JSP模式,老,但是够用了。
7 前端的知识得会一些,不然,你以为这么高端大气上当次的页面布局,整体页面规划哪来的,是的,所以你需要知道一些前端知识,布局啊,CSS啊,JS脚本啊。
8 数据可视化框架需要懂,不懂就没法玩最酷的部分了,其实不难的,像我这种之前一点都不会js的,不照样自学上了么?!
好吧,俺错了,俺不再列了,再TM列下去,读者全跑了,还打造个毛啊。
是的,整个数据流程,从数据收集,到数据存储,到处理,到统计分析,到网站,到数据最终展示,涉及的技术,确实不少,真要打造出一个这么东西,应该够你自豪了。
但是,也不要担心,我当时玩这个的时候,爬虫是自学的、JAVA后端的东西是自学,前端更是自学的,细数一下好像除了MySQL在学校学了点,好像其他东西都是自己折腾着出来的,所以比我有更强大大脑的你还怕个鸟。
更何况,还有我,这个系列的终极目的就是带你打造这么一个东西出来滴,啊不,终极目标是帮你打造一个装逼的个人网站。
四、你就不好奇,为啥我会折腾出来这个东西
其实这个东西一开始我也没有想到要搞出来的,毕竟前前后后搞它搞了两三周(这话好有歧义的样子),虽然是业余时间。
其实一开始我是对政务舆情这块的话题感兴趣,所以想对自己老家的政务相关的以数据的角度去剖析,就尝试了爬取了自己老家的地方性政府网站,地方门户网站相关的数据。
然后结合统计局的数据,做了一些角度的分析,然后发现挺有意思的。
后面又在爬虫这条路上越走越远,当时一时好奇,想知道大数据的市场行情如何,每个城市啊,细分的技术方向啊等等对于薪酬的变化影响,所以一时心痒,继续研究爬虫一口气爬了几个主流招聘网站的大数据相关岗位,做了相关分析。
这条路子越走越黑,紧接着北京连续雾霾警报,朋友圈已经被北京的雾霾占领了,于是想做雾霾造成的影响分析,接着从京东的口罩相关的数据去解析这相关的影响。
在电影《长城》水深火热之际,我又爬了《长城》的豆瓣数据,做了一次深度的分析。
不知不觉,几次折腾下来,我发现已经算是爬虫小入门了,但是很不甘心这些我爬过来的数据就这样仅仅的在我的公号里昙花一现。
是的,我要把他们给释放出来,让数据展现出他们的华丽。
所以,我开始着手打造“数据虫巢官网”,然后...
然后,敬请期待下一篇《如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的》。
相关阅读: