前言:这篇文章前后大概花了一天的时间。主要目的是研究出境游的用户以及预定酒店相关的行为和场景,而挑选了中国人常去“韩国”市场,以中国人常用的社交平台“新浪微博”作为数据来源。
一:需要的工具
全程用到了三个工具:集搜客、Microsoft Excel、文图报告。
首先我们需要用到的是爬虫工具。懂技术的朋友可能会选择针对目标网站,自己写个爬虫程序。不懂技术的产品同学们,挑个顺手的第三方工具也无妨。我这里用的是集搜客,之前大约花了半天时间阅读教程和熟悉界面,之后就上手用了,这个工具功能是挺强大的,不足之处是软件界面的用户体验不太友好。Excel 是用户对数据进行筛选、删减、排序等处理的,对于简单的数据处理,Excel 也是完全足够的,最后把得到的数据用文图形成在线的图表报告。
二:数据采集
采集的样本时间限定在了 2016 年1月至5月,而微博类型全部限定在了“原创”微博,主要采集的是搜索页面的数据,包括:用户昵称、个人主页、博文内容、博文链接、时间、发布工具、转发数、评论数、点赞数”,如果想要获取评论内容等,还需要对爬虫做进一步配置。评论内容对于这次的目的并没有意义,所以并没有进行采集。对于新浪微博平台的数据采集,主要有两个问题:
如果直接在搜索框输入“韩国 酒店”的话,我们得到的搜索结果最多只有 50 页。所以需要进入高级搜索,将我们限定的时间分成若干个部分,分别进行搜素。例如这里我把五月分成了 “1-9号”、“10-19”号、“20-31号”三个时间段进行搜索采集,每次搜索得到的结果都会少于50页,这样就保证了数据的完整性;
第二个问题是,新浪微博的反爬机制会造成采集中断,每隔一段时间,新浪微博都会要求输入验证码,输入完成后当前的页面就会中断,所以就需要将当前线索重新入库。这样会造成一部分的数据重复,不过没关系,我们后续简单处理一下就可以去掉重复数据。
全部采集完成后,得到了 4091 条数据,接下来需要对这些数据进行处理。
三:数据处理
首先利用 Excel 的 COUNTIF 函数去掉重复的数据;
接着需要排除干扰项:浏览一下收集到的数据发现,部分关键词重复率很高,并且内容和我们的研究目的完全不相关。例如,韩国电影“蜜月酒店杀人事件”五月份在微博的营销力度很大,很多与这部电影相关的关键词被入到库中,但是对我们一点用处都没有,这里需要剔除。还有,很多旅游机构,都会在微博上进行推广营销,这些数据也是需要去掉的。观察发现这些旅游机构的微博通常有三个特征:昵称加“V”、博文带有推广链接、大多数都是来自“微博 weibo”网页端。最好的解决方法可能是在采集数据前, 将加“V”的用户相关博文直接不显示在结果页,但是爬虫工具并不带有这个功能,所以我们只能从后面两个特征入手:去掉博文带有"http://t.cn"和来自“微博 weibo”的部分数据。处理完成后,还剩下 1469 条数据,而这 1469 条数据,基本上接近我们的有效数据。
最后,依据我们的目的,对数据进一步进行拆分处理。例如,采集到的时间格式为“5月21日 12:28 ”,我们可以依据需要拆分成“月”、“日”、“时分”的格式。
四:数据分析
关于数据分析,有一些很成熟的方法论,如“PEST分析法”、“5w2h分析法”、“逻辑树分析法”等等。在这里我选取了部分数据,进行简单的分析。
1. 按照月份查看数量
通过图片我们可以看出,3月份为最低,4月和5月博文数量有显著提升。这和出国游人数的月份变化趋势其实是吻合的。三月份由于学生已经开始上学,上班族年后工作上的事情比较多,选择在这个时候出游的人数是比较少的,因而,是传统意义上的淡季。
2.微博发布工具
通过图表可以看出,iPhone用户要占了绝大部分:65%。而依据新浪微博官方出品的“2015下半年-智能手机微报告”,iPhone用户所占的比例仅为 37%。这说明,出境游用户比一般的微博用户购买力要高很多,对价格可能敏感度低一点。
3.博文关键字
通过对博文内容的关键字进行分析,发现“吃”、“买”、“车”、“英语”出现的频率最高,这几个词也构成了赴韩游客的关键元素,也可能是用户痛点。还有一些比较有意思的内容,这里不再展开。