爬虫实战技巧-前言

要圖才好看是嗎

大家好,我是Zoe,简称Rust Rabbit,这是爬虫实战技巧系列。

我会定期在这个系列中分享自己在平时爬虫相关工作中的一些小的技巧和处理问题的方法。

这一期是这个系列的大纲,罗列下后面的分享可能会涉及的内容,分享的实际内容以具体文章为准,这里仅作大纲罗列所用。

如果大家对这方面的内容感兴趣,请让我知道,你们的热情是我分享的动力。

背景

我有位同事曾多次这么跟我:“最佩服的不是你的写代码能力,而是获取数据来源的能力,什么找接口、逆向、漏洞等等。”(这是在嫌疑我的代码么?)

没错,爬虫系统框架发展到今天,已经走向配置化,自动化,还需要人肉写代码的情况已经不多了。性能在数据抓取上已经不是问题,数据抓取的难点可能更多的是在数据源的寻找,抓取途径的选择上,以及如何应付对方的反爬机制。

从某种意义上来说,数据抓取可能不单纯的属于开发类,同时会涉及安全方向的很多内容。更多的是偷别人的数据,而不是抢。你看,如今社会,一片祥和,强盗不多,但小偷仍是层出不穷。对爬虫工程师来说,想对数据抓取得心应手,修炼一手炉火纯青的偷窃技术是必不可少的。那么,这个系列我会分享一些自己在这方面的经验。

注意

  1. 数据抓取一定要温和,不要没有操守地一次性讲对方拖跨
  2. 只能获取公开数据,坚决不要使用利用XSS等攻击方式获取敏感信息
  3. 发现对方有漏洞可以利用后,最好先上报给厂商
  4. 再说一边,慢慢抓,不要猛搞,影响对方正常浏览

以上只是个人观点,若有不妥,欢迎指出。同时,我分享的内容里面,肯定不是100%正确,如果有描述得不恰当或错误的地方,欢迎大家提出指正。

涉及内容

这里我先罗列一些之后会分享到的内容,每一点都能算得上是一个小的技巧,我所分享的这些,可能各位对其都熟悉并在工作中有所应用,但是对于一些新人来说,仍不乏会有一醍醐灌顶,茅塞顿开的效果。

1. 抓取源的选择

这应该算的上是最初级的技巧了,基本只要从事过一段时间数据抓取工作的人都知道。但据我所见,仍有不少人,也不乏有一段时间的爬虫工作经验的人,他们对数据来源的认识只是停留在桌面浏览器的web界面中,他们始终认为所见即所得。

我们经常会遇到一些不能够直接在桌面浏览器中被看到,或者说这一类的数据更利于我们来抓取。选择一个合适的数据抓取来源,会发现后续的抽取工作会大大降低,抓取的效率也有很大的提升。

2. 数据抓包的方式

抓包的目的,无非我们是想看下是发出什么样子的请求猜能拿到我们想要的数据。大多情况下,我们所说的抓包指的是狭义上特指HTTP协议的数据包,但特殊情况下也会涉及TCP的数据,但这时我们一般不是从中获取数据,更多的是在通过重放等方式来确定对方的漏洞。
当然也会有用来做协议分析的时候,但对于爬虫来说,我们要尽量避免取分析协议,我们不一定能够承担得起做协议分析的时间本,需要采取一些特殊的方法来获取数据,在具体文章中我会用微信抓取来举例说明。

3. 巧用搜索引擎

搜索引擎是很好工具,除了检索资料,社工等这些常规用途,对爬虫来说,通过搜索引擎来找一些突破点也是常有的事。
通过抓包的方式,我们可能只能找到一部分的数据接口,或者说这些接口的校验策略比较繁琐,不利于快速的进行数据的抓取。
那我们不妨利用搜索引擎来寻找一些特殊的页面,多数情况下,我们会有很多意外的收获。

4. 猜测后台实现,寻找漏洞

这里可能更多偏向于安全的范畴,但是我们爬虫工程师不妨利用这里面的一些方式来抓取我们想要的数据。当然从某种角度来说,这个做法并不可取,当发现厂家有漏洞时,理应及时向其报告,帮助其完善后台系统,避免造成更大损失。我这里只是提供这个思路,具体问题的取舍,这个各位自行把握。

5. 要会JS哇

不会JS的爬虫工程师,怎么能抓得好数据呢?很多情况下,我们要去分析其JS代码,来达到我们数据抓取的目的。一般是两种情况:1. 分析数据流和处理逻辑,比如实现Web微信;2. 反爬策略的分析,当你直接在浏览器访问数据接口时,发现取不到数据,这时候可能对方在JS里面有认证策略。

6. 客户端抓取怎么办

抓取时,当Web端久攻不下,或者处理异常复杂时,我们应该要换一个方向,从APP端入手。APP端抓取的几个有点:1. 数据规范,大部分情况下回事JSON或XML;2. APP后台反爬策略相对宽松。那么,当确定要走APP抓取时,我们第一步应该怎么处理,中间会遇到哪些问题呢?

7. 突破反爬策略

爬虫与反爬是相通的,所谓知己知彼,百战不殆。反爬系统必然是知道爬虫会使用怎样的方式来盗取数据,而爬虫工程师也理应要知道反爬系统是怎么执行他的反爬策略。一般的情况,中了反爬可能只是没有数据,但是有一些公司会直接将爬虫引入蜜罐,返回伪造的假数据,我们的爬虫并不能区分这些假数据,直接增加了爬虫的成本。那么,在对抗对方反爬策略时,我们应该要有怎样的一个思路呢。

后面的话

写分享还是挺耗时间的,特别是对于我这种,表述能力欠缺的人来说,更是一个需要花时间的事情。

平时上班时间都挺久的,只能抽周日(没打错,就是周日;解决温饱而已)的时间来做这件事情。

如果大家喜欢,觉得对自己有帮助,我会坚持下去,每月更新一篇。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343

推荐阅读更多精彩内容