Web Scraper傻瓜式爬虫插件之基础套路

图文|娘酷

第一次知道Web Scraper, 是在 知乎用户@陈大欣 在 零基础如何学爬虫技术?的答案中看见的。跟着答案试了一试,内心的惊喜无以言表!!!

我的天哪居然还有这么方便就可以抓取网页的软件,那我还学什么代码!!(暴风哭泣

不需要会爬虫,不需要懂网页结构,不需要会编程,分分钟收集网页数据,新大陆啊朋友们!!简直太适合我这个懒惰的皮皮虾了!!

当然,你可以使用任何你熟悉的语言去编写一个爬虫,但是当数据量很少只需要抓几千条或者几百条的时候,写代码的时间都可以手动复制黏贴出来了,于是就完全没有必要了。

由于大欣的介绍是针对网址带页码的网页的,接下来我将更深入具体介绍一下静态网页和不同的动态加载情况下该如何用Web Scraper来偷懒爬到我们想要的内容。如有不对的地方,请各位不要客气的指教。


Web Scraper 是什么? 

Web Scraper 是一个 Chrome 谷歌浏览器的插件:http://webscraper.io/

这是一个可视化的抓数据的工具。可视化意味着,你只需要知道你要的对象是什么,在网页上的哪里,鼠标移到目标上单击,就完成了全部的操作。它的工作原理是模拟人在浏览器上的操作并重复这一动作直至所有指定目标被收集结束。

装上 webscraper.io 提供的的插件之后,打开 Chrome 的 Developer Tool,会看到一个 Web Scraper 标签。Shift+Ctrl+I 唤出开发者工具就可以使用了。将开发者工具置底(在开发者工具的右上角可以选择放置方式)

准备工作就绪,它就可以指哪爬哪了。接下来介绍一些WS的基本套路


基本套路

以我的简书关注列表为例,我想要收集我都关注了谁,仅需要他们的网名

图中可以看到我关注了96个人,第一位是国学上官清晨

新建:打开开发者工具 -> 选择Web Scraper -> "Create New Sitemap" -> "Create Sitemap" ->给你的虫子取个名字然后把目标网页地址放进去(名称必须为小写英文字母),我们就把这个爬虫命名为“niangkufollwers” 

放入链接:https://www.jianshu.com/users/f354e815185f/following

添加对象:单击Add New Selector,Selector即你想收集的目标信息,此处我们先仅收集关注者的名称。“id”处给对象取个名字,“Type”选择Text(收集的人名是文本属性),“Selector”处点击“Select”按钮后,将鼠标移到页面上,移过之处会变成绿色,单击目标后会变成红色。此处单击“国学上官清晨”和“谈心社”两个名字后,页面上的其他相同类型的数据也会被自动圈起。该页被选中多个网名,记得勾选multiple,Done Selecting! -> Save Selector

一个页面上出现多个目标时记得勾选Multiple

启动爬虫!:Sitemap(niangkufollowers) -> Scrape

先不要设置delay
YEAH!一共得到9个名字!

导出数据(EXPORT):Sitemap(niangkufollwers) -> Export data as CSV  。CSV格式的文件排版可能乱,需要打开再整理一下。同时你编写的这个Sitemap也可以导出成语句发给别人使用,你也可以使用别人编写的虫虫。

试试看下面的这个, 在Create New Sitemap -> import sitemap下导入。

{"startUrl":"https://www.jianshu.com/users/f354e815185f/following","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"element","selector":"ul.user-list li","delay":""},{"parentSelectors":["element"],"type":"SelectorText","multiple":false,"id":"name","selector":"a.name","regex":"","delay":""},{"parentSelectors":["element"],"type":"SelectorText","multiple":false,"id":"following","selector":"div.meta span:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["element"],"type":"SelectorText","multiple":false,"id":"follower","selector":"span:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["element"],"type":"SelectorText","multiple":false,"id":"posts","selector":"span:nth-of-type(3)","regex":"","delay":""},{"parentSelectors":["element"],"type":"SelectorText","multiple":false,"id":"counts","selector":"div.meta:nth-of-type(2)","regex":"","delay":""}],"_id":"ningkufollowers"}


层级图

导入上面的sitemap后,层级图在sitemap(niangkufollwers) -> selector graph 中查看

该sitemap共有二级目标

层级图可以很好的帮助我们整理目标对象的包含与被包含关系。element是我设置的一级对象,name,following等是我设置的二级对象。当要收集的对象包含多维度的数据时,如:关注者列表中的每个网友的相关信息,评论列表中的每条留言的相关信息。梳理目标层级关系有助于我们进行更复杂的数据收集。

下一章,我将介绍一些处理多层级的进阶套路。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,517评论 18 139
  • A1:当一个人有自己的初始事业时,就会想着发展好,然后扩大事业范围!我最近经过几个月的努力,工作室初始化算是稳定了...
    思思bayi阅读 171评论 1 1
  • 雨夜就是下雨的半夜,听歌睡觉吧,又学一个新东西,纪念一下,感谢感谢!
    朱海风阅读 157评论 0 0
  • 很久很久以前,有个人很喜欢龙,所以在他家的酒器、卧室等地方都有龙的装饰。他如此爱龙,被天上的真龙得知,于是真龙来到...
    万能的船长阅读 1,247评论 0 4