[方法分析] 如何快速入手掌握Python爬虫

本文适合掌握了Python基本语法,完成了逻辑训练题的同学。

不得不说目前二期同学的学习劲头和氛围比一期的要好得。大家的提问、互动和建议也比较多。

回答一个问题。昨天发了推荐的视频,今天晚上也有一场直播课程(YiCo的),讲得比较多的工具和抓取中的调试,有同学感到内容太多,对于怎么入手写一个爬虫代码没有头绪。

其实入手写简单爬虫功能还是比较简单。分成三步:

  1. 发起请求,返回页面数据
    请求网络资源(你想抓取的URL),得到网页源代码(或者返回的json数据),这个过程可以看作就是模拟浏览器操作。
  2. 对网页进行解析,得到数据
    获取网页中的数据,有这以下几种方法:
  • 正则表达式匹配
  • BeautifulSoup
  • XPath
  1. 数据处理,存入数据库
    对数据进行处理,如格式调整,进行数据库操作(或文件操作 常用csv文件格式)

针对每一步来具体讲:
1)发起网络请求的方式,urllib, urlib2, requests库,都已对网络请求高度封装了,两三行代码就可以实现。后面如果使用scrapy连这两三行代码也不用写了。

会出现的问题(或难点),对URL访问不熟悉,包括请求参数,请求头,这里就需要对URL进行抓包分析,经常使用的工具 Chrome 的“检查”工具,Fiddler等。确定分析的主要有两点:请求的URL,请求中的关键参数。

另外就是增加防Ban措施。(让爬虫伪装得像浏览器一样)

2) 对页面进行匹配或解析

  • 正则表达式刚开始比较难掌握,原理就是用一个模板格式去套,把所需要的数据匹配出来。可以先用 BeautifulSoup 或 XPath

  • BeautifulSoup 是基于 DOM 的,会载入整个文档(就是整个网页),解析整个 DOM 树,因此时间和内存开销都会大很多。好处是比较简单,通过标签类型就可以查找定位,支持 css 选择器。

    比如简书的文章标题就是在 属性为 title<a> 标签中

  • XPath 使用是需要知道文档结构,即 确定这个标签的路径。
    上面的例子,文章标题是在 <div> (属性 author) 下的 <a> 标签

3)数据处理,入库操作。
循序渐进的学习方式,第一步,先把数据打印出来,好处马上看到抓取的数据结果,有成就感,便于调度,当然最好是能debug调试。第二步,数据写入CSV文件,几千条上万条数据用Excel分析起来也很方便,这种方式一般满足日常一些数据的要求,抓取尽可能多的数据练习。第三,学习mysql, mongodb数据库操作(包括程序写入,基本 sql 语句练习)


006 - 5分钟快速学会正规表达式

007 - Python简单爬虫 - 正则表达式

010 - 使用BeautifulSoup和XPath抓取结构化数据


YiCo斗鱼直播视频录屏:链接: https://pan.baidu.com/s/1eR19GOE 密码: dt7y

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 200,527评论 5 470
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,314评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 147,535评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,006评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,961评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,220评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,664评论 3 392
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,351评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,481评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,397评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,443评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,123评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,713评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,801评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,010评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,494评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,075评论 2 341

推荐阅读更多精彩内容