采集系列文章
爬虫软件的介绍及案例说明(文章链接)
案例一:采集京东商品列表页数据(文章链接)
案例二:采集京东商品详情(文章链接)
▶案例三:采集京东商品评论(本文)
案例四:采集花瓣网的图片(文章链接)
附加:如何通过链接URL批量下载图片(文章链接)
随着电商盛行以及竞争局势日益激烈,用户评价成为不可忽视的一部分。企业需要根据海量的评论文本去更好地了解用户的体验感受及个人喜好,从而提高产品质量,改善服务,获取市场上的竞争优势。而对于消费者来说,他们需要在没有看到真正地产品实体之前,根据已购用户的评价来感知产品的质量等信息,为购物决策提供参考。
本文通过八爪鱼爬虫软件采集用户的商品评价,继而从分析产品的用户情感倾向出发挖掘出该产品的优点与不足,以提升自身竞争力。
一、结果预览
通过下面的操作文档,你将可以得到某个商品评价的excel文档,如下图:
二、工具
1、八爪鱼采集工具
官网下载、安装、注册及登录后,就能直接使用,操作过程十分简单,故略过程!
三、评论采集与分析过程
1、使用八爪鱼软件爬取商品评论,将采集的信息保存为Excel文档
☆这是本文主要内容
2、根据八爪鱼采集到的评价图片链接URL,批量下载评价图
☆八爪鱼不能直接爬取图片,只能爬取图片链接URL,如果想批量下载图片,请查看“如何通过链接URL批量下载图片”
3、通过微词云生成词云,了解消费者的体验重点
☆这部分内容将在其他文章中呈现
四、制定采集目标
Step 1:在京东上选择一款你需要爬取评价的产品,比如我选的是深爱的一款U型电动牙刷。
Step 2:查看京东商品评价的组成部分,并明确每一部分的属性。如下图,用户名、用户等级、评价内容、商品属性、评价时间等信息是以文本的形式呈现的,可以直接用采集器采集;而头像、视频、图片等是以图片的形式呈现的,采集器只能采集到相应的链接(URL),需再用其他软件批量下载图片。
五、八爪鱼人工流程采集(自动识别)
Step 1:查询并复制商品链接
Step 2:打开八爪鱼,新建自定义任务。
Step 3:输入需要采集评论的商品链接,并点击“保存设置”。
Step 4:在上一步结束后,会弹出一个新窗口,窗口将会加载刚刚输入的网址,并开始对该网站自动识别。
Step 5:软件自动识别后,会在窗口下方显示预采集字段及字段数据,判断一下是不是你所想采集的数据。①如果这不是你所想采集的数据,则点击右侧框框中的“切换识别结果”,这将会切换别的采集结果;②如果你还想添加其它字段,则点击下方的“+”,再点击“从页面中添加字段”,这可以按照指引添加字段,同理不想要的字段也可删去;③如果这是你想要的数据,则点击“生成采集设置”。
Step 6:生成采集设置之后,它会自动生成采集流程图,如图片左边。最后,点击右边框框中的“保存并开始采集”。
Step 7:选择运行模式,此处选择“启动本地采集”,其余两种都需要付费。完成这一步,采集器就开始采集信息了。
Step 8:下图为采集框,当采集到自己想要的评论数目,就可以点击停止采集,并选择“导出数据”。注意:此处采集效率比较低,是因为采集器需要采集图片的链接,这意味着采集器需要完全把图片加载出来。
☆备注:如果你不需要图片链接,则可在Step 5中切换识别结果,这可以节省大量的采集时间。
Step 9:选择导出的文件格式,一般选Excel格式,然后采集就结束啦!
六、查看Excel文件
由下图可见,该自动识别流程可以采集到评论内容、用户名、头像、所有评价照片链接、商品属性、评价时间等。
以上是整个京东评论的采集过程,如果你想要进一步下载评论图片,如上面结果预览所示,则可以点击链接①查看;如果你想生成词云,了解用户对产品的关注重点,这可以点击链接②查看。
链接①:如何通过链接URL批量下载图片