作为一名新时代的产品,如果你还不知道爬虫,可能你已经Out了。
爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
soga,不过,产品为什么要懂爬虫?爬虫抓的是数据。所以:
如果你想做决策但苦于没有数据支撑?
如果你想拆指标但苦于没有数据支撑?
如果你竞品分析但苦于没有数据支撑?
如果你想···但苦于没有数据支撑?
包括市场营销中的SEO、潜在客户;竞品分析中的竞品动态,相关反馈;个人生活中的专家评论,公司岗位中都有爬虫的用武之地。
那么,爬虫,走起。
下面,我们5min抓取B站弹幕:
首先,工欲善其事必先利其器,先安装Chrome浏览器,然后召唤控制台(Win快捷键Fn+F12)
温馨小提示,通过如图方式将网页和控制台变成上下分屏,体验更好哈。
接下来,我们在B站注册,随便打开一个链接,
比方说我们听一首歌吧,http://www.bilibili.com/video/av8086236/
接着,如图,Network-》xml-》右击,在新的页面打开。
如图,这时我们就可以get到所有弹幕了,然后复制链接。
打开Excel2013,数据-自网站-粘贴地址-转到-勾选-导入:
就此,抓到了华丽丽的数据。
然而,数据有点乱,简单处理一下吧。
这里我们用到Excel的分列功能,分隔符号选择逗号,
最后效果如图,
如果你想问这些字段都是什么意思,咳咳,简单说几句,
K列,116.342代表的是时间(秒);
L列,1代表的是弹幕类型(1-跑马灯,4-底部,5-悬停);
M列、N列代表的是字体和颜色;
···
数据是一笔宝贵的财富,亟待我们的挖掘。
原创不易,转载请注明出处哈。
权兴权意
产品可以更优雅~