Python Web Scraping入门

image
  • 来源 | 愿码(ChainDesk.CN)内容编辑
  • 愿码Slogan | 连接每个程序员的故事
  • 网站 | http://chaindesk.cn
  • 愿码愿景 | 打造全学科IT系统免费课程,助力小白用户、初级工程师0成本免费系统学习、低成本进阶,帮助BAT一线资深工程师成长并利用自身优势创造睡后收入。
  • 官方公众号 | 愿码 | 愿码服务号 | 区块链部落
  • 免费加入愿码全思维工程师社群 | 任一公众号回复“愿码”两个字获取入群二维码

本文阅读时长:12min

网络上可用的数据量在数量和形式上都在不断增长。企业需要这些数据来做出决策,尤其是机器学习工具的爆炸性增长, 这些工具需要大量的数据用于培训。大部分数据都可以通过应用程序编程接口获得,但同时许多有价值的数据仍然只能通过网络抓取过程获得。

对于许多构建系统来执行抓取的人来说,Python是编程语言的选择。它是一种易于使用的编程语言,具有丰富的工具生态系统,可用于其他任务。在本文中,我们将重点介绍设置抓取环境的基础知识,并使用多种交易工具执行基本的数据请求。

设置Python开发环境

如果您之前没有使用过Python,那么拥有一个可用的开发环境非常重要。本文将向您展示如何使用virtualenv设置独立的开发环境,并使用pip管理项目依赖性。

准备

我们将专门使用Python 3.x,在我的例子中是3.6.1。虽然Mac和 Linux通常安装了Python版本2,而Windows系统却没有。所以在任何情况下都可能需要安装Python 3。


image

pip随Python 3.x一起安装,因此我们将省略其安装说明。此外,本文中的所有命令行示例都在Mac上运行。对于 Linux用户,命令应该相同。在Windows上,有备用命令(如dir而不是ls),但不会涵盖这些备选方案。

怎么做

我们将用pip安装一些软件包。这些包安装在 Python环境中。通常可能存在与其他软件包的版本冲突,因此遵循本书中的方法的一个好方法是创建一个新的虚拟Python环境,我们将使用的软件包确保正常工作。
虚拟Python环境使用virtualenv工具进行管理。可以使用以下命令安装它:

~ $ pip install virtualenv

Collecting virtualenv

Using cached virtualenv-15.1.0-py2.py3-none-any.whl

Installing collected packages: virtualenv

Successfully installed virtualenv-15.1.0

现在我们可以使用virtualenv。但在此之前,让我们简要地看一下pip。此命令从PyPI安装Python包,PyPI是一个包含数十万个包的数据包存储库 。我们刚看到使用install子命令pip,这确保了一个软件包的安装。我们还可以看到所有当前安装的包带有pip列表:

~ $ pip list

alabaster (0.7.9)

amqp (1.4.9)

anaconda-client (1.6.0)

anaconda-navigator (1.5.3)

anaconda-project (0.4.1)

aniso8601 (1.3.0)

也可以使用pip uninstall和包名称卸载软件包。使用virtualenv非常简单,用它来创建一个环境并从github安装代码。让我们来看看这些步骤:
1.创建一个表示项目的目录并输入目录。

~ $ mkdir pywscb

~ $ cd pywscb

2.初始化名为env的虚拟环境文件夹:

pywscb $ virtualenv env

Using base prefix '/Users/michaelheydt/anaconda'

New python executable in /Users/michaelheydt/pywscb/env/bin/python

copying /Users/michaelheydt/anaconda/bin/python =>

/Users/michaelheydt/pywscb/env/bin/python

copying /Users/michaelheydt/anaconda/bin/../lib/libpython3.6m.dylib

=> /Users/michaelheydt/pywscb/env/lib/libpython3. 6m.dylib

Installing setuptools, pip, wheel...done.

3.创建一个env文件夹。我们来看看安装的内容。

pywscb $ ls -la env

total 8

drwxr-xr-x 6 michaelheydt staff 204 Jan 18 15:38 .

drwxr-xr-x 3 michaelheydt staff 102 Jan 18 15:35 ..

drwxr-xr-x 16 michaelheydt staff 544 Jan 18 15:38 bin

drwxr-xr-x 3 michaelheydt staff 102 Jan 18 15:35 include

drwxr-xr-x 4 michaelheydt staff 136 Jan 18 15:38 lib

-rw-r--r-- 1 michaelheydt staff 60 Jan 18 15:38 pipselfcheck.

json

4.新建我们激活的虚拟环境。此命令使用 env文件夹中的内容来配置Python。在此之后,所有python活动都与此虚拟环境相关。

pywscb $ source env/bin/activate

(env) pywscb $

5.我们可以使用以下命令检查python是否确实在使用此虚拟环境 :

(env) pywscb $ which python

/Users/michaelheydt/pywscb/env/bin/python

创建我们的虚拟环境后,让我们克隆书籍示例代码并查看其结构。

(env) pywscb $ git clone

https://github.com/PacktBooks/PythonWebScrapingCookbook.git

Cloning into 'PythonWebScrapingCookbook'...

remote: Counting objects: 420, done.

remote: Compressing objects: 100% (316/316), done.

remote: Total 420 (delta 164), reused 344 (delta 88), pack-reused 0

Receiving objects: 100% (420/420), 1.15 MiB | 250.00 KiB/s, done.

Resolving deltas: 100% (164/164), done.

Checking connectivity... done.

这创建了一个PythonWebScrapingCookbook目录。

(env) pywscb $ ls -l

total 0

drwxr-xr-x 9 michaelheydt staff 306 Jan 18 16:21 PythonWebScrapingCookbook

drwxr-xr-x 6 michaelheydt staff 204 Jan 18 15:38 env

让我们改变它并检查内容。

(env) PythonWebScrapingCookbook $ ls -l

total 0

drwxr-xr-x 15 michaelheydt staff 510 Jan 18 16:21 py

drwxr-xr-x 14 michaelheydt staff 476 Jan 18 16:21 www

有两个目录。大多数Python代码是py目录。www包含一些web内容,我们将不时使用本地web服务器来使用这些内容。让我们看看py目录的内容:

(env) py $ ls -l

total 0

drwxr-xr-x 9 michaelheydt staff 306 Jan 18 16:21 01

drwxr-xr-x 25 michaelheydt staff 850 Jan 18 16:21 03

drwxr-xr-x 21 michaelheydt staff 714 Jan 18 16:21 04

drwxr-xr-x 10 michaelheydt staff 340 Jan 18 16:21 05

drwxr-xr-x 14 michaelheydt staff 476 Jan 18 16:21 06

drwxr-xr-x 25 michaelheydt staff 850 Jan 18 16:21 07

drwxr-xr-x 14 michaelheydt staff 476 Jan 18 16:21 08

drwxr-xr-x 7 michaelheydt staff 238 Jan 18 16:21 09

drwxr-xr-x 7 michaelheydt staff 238 Jan 18 16:21 10

drwxr-xr-x 9 michaelheydt staff 306 Jan 18 16:21 11

drwxr-xr-x 8 michaelheydt staff 272 Jan 18 16:21 modules

每章的代码都在与章节匹配的编号文件夹中(第2章没有代码,因为它都是交互式Python)。请注意,有一个modules文件夹。确保您的Python路径指向此文件夹。在Mac和Linux上, 您可以在.bash_profile文件(以及Windows 上的环境变量对话框)中设置此项 :

Export PYTHONPATH="/users/michaelheydt/dropbox/packt/books/pywebscrcookbook/code/py/modules" export PYTHONPATH

每个文件夹中的内容通常遵循与章节中的配方序列匹配的编号方案。以下是第6章文件夹的内容:

(env) py $ ls -la 06

total 96

drwxr-xr-x 14 michaelheydt staff 476 Jan 18 16:21 .

drwxr-xr-x 14 michaelheydt staff 476 Jan 18 16:26 ..

-rw-r--r-- 1 michaelheydt staff 902 Jan 18 16:21 01_scrapy_retry.py

-rw-r--r-- 1 michaelheydt staff 656 Jan 18 16:21 02_scrapy_redirects.py

-rw-r--r-- 1 michaelheydt staff 1129 Jan 18 16:21 03_scrapy_pagination.py

-rw-r--r-- 1 michaelheydt staff 488 Jan 18 16:21 04_press_and_wait.py

-rw-r--r-- 1 michaelheydt staff 580 Jan 18 16:21 05_allowed_domains.py

-rw-r--r-- 1 michaelheydt staff 826 Jan 18 16:21 06_scrapy_continuous.py

-rw-r--r-- 1 michaelheydt staff 704 Jan 18 16:21

07_scrape_continuous_twitter.py

-rw-r--r-- 1 michaelheydt staff 1409 Jan 18 16:21 08_limit_depth.py

-rw-r--r-- 1 michaelheydt staff 526 Jan 18 16:21 09_limit_length.py

-rw-r--r-- 1 michaelheydt staff 1537 Jan 18 16:21 10_forms_auth.py

-rw-r--r-- 1 michaelheydt staff 597 Jan 18 16:21 11_file_cache.py

-rw-r--r-- 1 michaelheydt staff 1279 Jan 18 16:21

12_parse_differently_based_on_rules.py

我们将使用该脚本 /文件名>。如果您想退出Python虚拟环境,可以使用以下命令退出:

(env) py $ deactivate

py $

And checking which python we can see it has switched back:

py $ which python

/Users/michaelheydt/anaconda/bin/python

使用Requests和Beautiful Soup


我们将安装Requests and Beautiful Soup 。我们将安装两个库并对它们有一些基本的熟悉程度 。

准备

https://www.python.org/events/pythonevents 中获取Python最新活动。下面是Python.org活动页面的一个例子(它经常变化,所以你的体验会有所不同):

image

我们需要确保安装了Requests和Beautiful Soup。我们可以通过以下方式做到这一点 :

pywscb $ pip install requests

Downloading/unpacking requests

Downloading requests-2.18.4-py2.py3-none-any.whl (88kB): 88kB downloaded

Downloading/unpacking certifi>=2017.4.17 (from requests)

Downloading certifi-2018.1.18-py2.py3-none-any.whl (151kB): 151kB

downloaded

Downloading/unpacking idna>=2.5,=3.0.2,=1.21.1,
怎么做

现在让我们去学习一些事件。对于这个配方,我们将从使用交互式python 开始 。
1.使用ipython命令启动它:

$ ipython

Python 3.6.1 |Anaconda custom (x86_64)| (default, Mar 22 2017,

19:25:17)

Type "copyright", "credits" or "license" for more information.

IPython 5.1.0 -- An enhanced Interactive Python.

? -> Introduction and overview of IPython's features.

%quickref -> Quick reference.

help -> Python's own help system.

object? -> Details about 'object', use 'object??' for extra

details.

In [1]:

2.接下来我们导入请求

In [1]: import requests

3.我们现在使用请求通过发出GET请求为以下URL发出GET HTTP请求:https://www.python.org/events/ python-events /:

In [2]: url = 'https://www.python.org/events/python-events/'

In [3]: req = requests.get(url)

4.下载了页面内容,但它存储在我们的请求对象req中。我们可以使用.text属性检索内容。这将打印前200个字符。

req.text[:200]

Out[4]: 'nnn
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,636评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,890评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,680评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,766评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,665评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,045评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,515评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,182评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,334评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,274评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,319评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,002评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,599评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,675评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,917评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,309评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,885评论 2 341

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,709评论 0 10
  • 引言 在这里我假设你已经看完了一篇Python教程,基本熟悉了Python的结构和语法,在命令行下的Python互...
    Programmer客栈阅读 65,126评论 0 17
  • Python 二三事 面向初学者介绍Python相关的一些工具,以及可能遇到的常见问题。 最后更新 2013.5....
    hzyido阅读 67,731评论 2 42
  • title: python高级进阶 参考文献 https://pythonguidecn.readthedocs....
    采香行处蹙连钱阅读 2,502评论 1 5
  • 最近一直都很忙…… 每天上班备课上课,下班接孩子。我觉得每天都过得充实而饱满,当然,同时也很累。 不过,我对自己说...
    木夕_9131阅读 144评论 0 1