爬虫学习笔记总结<1>

技术路线:requests + bs4 + re

1.requests

  • requests库负责向指定URL下载和传送数据,拉取指定网页的HTML内容,在python中,典型的代码框架是:

    安装: pip3 install requests

    import requests
    def getHTMLText(url):
      try:
          r = requests.get(url)
          r.raise_for_status()
          r.encoding = r.apparent_encoding
          return r.text
      except:
          return "Exception generated"
    

    其中,get函数返回Response对象,该对象有以下几个常用属性

    属性 描述
    text 返回网页的HTML格式,string类型
    contents 返回网页的二进制形式
    encoding 从网页头部判断而来的网页编码方式
    apparent_encoding 根据网页内容推断的编码方式
    status_code HTTP状态码
    request 向网站请求数据的HTTP请求报文
  • 下面介绍requests的7个库方法

    方法 描述
    request() requests库的基础方法,以下几个方法都是基于该方法封装而来,使用较少
    get(url, params= None, **kwargs) 爬虫时使用最多的方法, params以字典形式给出
    head(url, **kwargs) 获取网页头部,适合爬大量数据前获取网页的概要信息
    *post(url, data=None, json=None, **kwargs) 使用post方法向网页上传数据
    *put(url, data=None, **kwargs) 更新全部字段,覆盖原位置资源
    *patch(url, data=None, **kwargs) 更新局部字段,不会破坏原位置数据
    *delete(url, **kwargs) 删除网页资源

    *: 爬虫通常是从网页下行拉取数据,加上网站一般不允许用户操作服务器上的资源,所以这几个方法我们很少用到

    大家或许留意到,这几个方法不就是HTTP报文中的方法字段值吗?没错这几个方法就是基于HTTP协议中数据交换方法定义的,所以我们顺便简要复习一下HTTP的两种报文:请求报文和响应报文。

    ​ HTTP报文是面向文本的,因此报文中的每个字段都是ASCII码串,报文都由三个部分组成:开始行首部行实体主体。二者的区别只是开始行不同。

    报文类型 开始行
    请求报文 |方法| URL|版本
    响应报文 |版本|状态码|短语|

    其中请求报文的方法字段值就包含了requests的几种库方法。

    响应报文的状态码可以通过 r.status_code属性得到,200表示正确数据

    2.Robots协议

    • 作用:向全网宣告本网站哪些内容不能爬取

    • 描述文件位置:网站根目录下的robots.txt

    • 遵守方式:建议性,非强制性,频率适度的爬虫可以不遵守robots协议(手动滑稽

      下面是淘宝的robots.txt:

robots.png

3. BeautifulSoup4 (bs4)

解析HTML,XML,YAML利器

安装: pip3 install BeautifulSoup4

from bs4 import BeautifulSoup4 as bs4 # 虽然安装的是BeautifulSoup4,但这里from依然用bs4
soup = bs4(r.text, 'html.parser')) # 解析网页用html.parser, xml同理

可以把解析后的soup理解为一棵标签树,类似于DOM,我们后面可以使用各种方法对这棵树进行遍历,得到目标数据。

  1. BS类属性

    属性 描述
    tag 标识该节点为标签节点
    name 该标签的name,<p>.name 返回 p
    attrs 字典类型,存储标签属性和对应值的键值对
    navigablestring 非属性字符串,<tag>.string获取标签包围的内容
    comment 注释部分

2.标签树的下行遍历

​ .contents: 当前<tag>的子节点列表

​ .children: 子节点的迭代类型

​ .descendants: 所有子孙节点的迭代类型

  1. 上行遍历

    .parent: 当前<tag>的直接父节点

    .parents: 当前<tag>的所有父辈,可迭代类型

    1. 层级遍历

      ​ next_sibling previous_sibling

    可迭代:next_siblings previous_siblings

  1. 解析网页时,最常用的莫过于 <font color='red'>find_all(name, attrs, recursive, string, **kwargs</font>

    参数解释:

    • name:要检索的标签名称

    • attrs:检索具有特定属性值的标签,以字典形式给出

    • recursive:False只在下一级子节点中检索

    • string:检索包含特定内容的标签, 匹配对象是前面说过的navigablestring

      注:find() 函数与find_all(),用法相同,只不过前者返回第一个匹配的标签,后者返回所有匹配结果列表

4. re :正则表达式库

  1. 主要函数
    • re.search(pattern, string) returns a 'match' object (compare full string)
    • re.match(pattern, string) returns a 'match' object (only match beginning)
    • re.findall(pattern, string) returns a list containing matched parts
    • re.split(pattern, string) returns a list separated by pattern
    • re.finditer(pattern, string) return an iterable whose elements is match object

注: 使用re.compile(pattern)后,再调用上述函数时不必提供pattern参数。

  1. match对象

2.1 属性

  • .string: 待匹配文本
  • .re: 使用的正则表达式
  • .pos: 起始位置
  • .endpos: 结束位置

2.2 方法

  • group(n): n=0表示整个匹配文本,若pattern中含有子表达式,可以令n=1,2...,按需提取
  1. 贪婪匹配: re默认贪婪匹配,实际上大多数正则库都默认贪婪匹配,?使用懒惰版。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容