一、Selenium概述
严格来说Selenium是自动化测试工具,该库提供调用打开浏览器的功能,并能够通过代码来控制一切浏览器的行为。比较重要的一点是,我们可以在代码中来访问浏览器内的一切数据,模拟一切浏览器用户行为。这样为爬虫的开发带来了大大的方便之处。
有的同学可能会说使用Scrapy等开源框架后台直接download html源码不是更快更便捷吗,甚至都不用打开网页。但是,事实是有一些网站的数据是动态生成的,又比如有很多数据需要拉动滚动条来生成,这样的网页,我们使用selenium能够很容几行代码轻松搞定。
下面进入安装环节。
二、Python环境下Selenium的安装
首先安装pip,如果安装过了pip,请跳过这一步。(这个环境是windows下,如果是linux要简单得多。)
1.安装pip
输入网址:
https://pypi.python.org/pypi/pip#downloads :
进入网站后点击下载文件,并解压到一个目录下。
下载完成之后,解压到一个文件夹,用CMD控制台进入解压目录,输入:
python setup.py install
这样pip就安装好了。
2、安装Selenium
打开命令行工具,进入python编辑环境,输入命令:
pip install selenium
这样selenium就安装完成了。
为了在代码中使用selenium调用浏览器,还需要安装浏览器driver,这里我安装chrome的driver。
3.安装chrome driver
下载地址:
https://sites.google.com/a/chromium.org/chromedriver/downloads
将下载下来的exe文件放到chrome的安装目录下,并将该目录添加到环境变量path中。
至此安装全部完成。