又逢岁末,20多岁正在匆忙中奔三的你,每年回家被问得最多的,无非就是婚姻大事了。上帝在造人的时候将灵魂分成两半,于是他们要终此一生,去互相寻找彼此的另一半。有时候会找到,但大多数时候,漂泊一生也难以寻得那位与你白头偕老的TA。但是,一份美好的爱情,理应经得起等待。
回到主题,本文从数据挖掘的角度,在抓取“世纪佳缘”交友网站的主要省份约72W年轻用户(20~28岁)信息,对该群体进行用户画像,从中窥知年轻群体在对待爱情和婚姻上的态度。
【技术解析】
爬虫部分依旧是使用Python语言编写,开发者可通过自行修改XML文件,从而灵活地基于该Project进行符合自己需求的二次开发。
在数据清洗(主要是异常值和缺失值的处理)、统计分析、以及基于机器学习的方法进行预测方面,因为R语言在统计方面的广泛运用,所以这里采用R语言进行编写。部分采用SQL脚本进行统计(因为R的速度真是不敢恭维~~)。分词模块使用Python,返回结果为热度词和对应的TF-IDF值。
在数据可视化部分,使用R的ggplot2 package、Baidu eCharts3,以及Excel2016自带的可视化工具。同时使用Tagul生成自定义的字符图云。
所有代码(Python、R、SQL)+ 数据(Json、Excel、CSV)会全部开源,希望更多热爱 机器学习/深度学习/人工智能/计算机视觉/自然语言处理/推荐系统/搜索/数据挖掘/数据可视化的小伙伴多多与我交流哈(知乎|微信公众号 @LucasX)。
【用户画像】
作者知道,很多非计算机相关专业的朋友肯定对上面的“一大串文字”一点儿兴趣也没有,所以上面也不打算怎么细致描述了。OK,直接看图吧!