网络爬虫(Web Spider),根据网页地址爬取网页内容,从而获取各类数据,实现多种多样的功能。下面就以爬取东方财富网的数据为例,谈谈最简单的爬虫的实现。爬虫的核心有三个:请求、解析、存储。
环境配置
Python安装使用Anaconda包,包里已经包含了必须的requests模块
请求html页面
import requests
url = 'http://www.eastmoney.com/'
req = requests.get(url)
html = req.content
这样我们就把html网页的源代码下下来了,我们执行
print(html)
就能把网页显示出来
此时,我们发现网页有乱码现象,这是编码的问题,这时我们指定网页的编码
req.encoding = req.apparent_encoding
就会发现网页显示恢复正常了
当然,如果我们没有显示的需要,完全没必要指定网页的编码。
解析
获取网页源码后,我们可以对网页的源码进行解析,提取我们想要的信息。使用得较多的是BeautifulSoup模块。我们以提取东方财富网首页的消息为例,右键点击对应的元素,选择检查,然后我们就可以看到网页的源代码了。
我们发现对应的元素都被<div class="nlist">选定,相应的我们可以把相应的代码筛选出来。
from bs4 import BeautifulSoup
bf = BeautifulSoup(html, 'lxml')
nmlist = bf.find_all(class_ = 'nlist')
发现得到的是一个list文件,每个list包含若干条消息
我们发现消息的标题和链接被<a>给限定出来,于是我们同样可以用find_all方法获取,以list[0]的消息提取为例,而链接用get方法得到。
a = nlist.find_all('a')
for each in a:
print(each.string, each.get('href'))
我们看看得到了什么结果
可以看到标题和链接成功提取出来了。
存储
一般采用csv文件进行存储,可以使用excel等软件打开
date = open('test.csv','w')
writer = csv.writer(date)
date.close()
这样就保存到csv文件了。
全部的代码如下所示
import requests
from bs4 import BeautifulSoup
import csv
date = open('test.csv','w')
writer = csv.writer(date)
url = 'http://www.eastmoney.com/'
req = requests.get(url)
# req.encoding = req.apparent_encoding
html = req.text
bf = BeautifulSoup(html, 'lxml')
nlist = bf.find_all(class_ = 'nlist')[0]
a = nlist.find_all('a')
for each in a:
a_list = []
a_list.append(each.string)
a_list.append(each.get('href'))
writer.writerow(a_list)
date.close()
这样短短的几行程序,就完成了一个爬虫,但是以上程序只能爬取静态网页,对于javascript动态网页就无能为力。
JS爬虫
解析JS网页一般有两种方法,一种是在网页源码中找到JS脚本数据,爬取到本地解析,另一种是使用Selenium模拟浏览器登录获取。这里介绍第一种,第二种以后有时间再介绍。
获取JS脚本
以chrome浏览器为例,目标网页选择 http://quote.eastmoney.com/web/BK04751.html,以获取银行板块的今日开盘数据为例,当我们使用检查查看网页源码时会发现数据是空白,如下所示:
这是由于数据被js动态脚本加载,直接采取上面的方法无法获取数据。我们首先要看看js脚本地址。
我们首先右键页面点击检查,标签切到Network,按ctrl + R重新加载
我们会发现出现了很多JS脚本。接下来按ctrl + F搜索当日开盘点位'3147.83',我们依次点击每个搜索结果,找到符合包含开盘/最高等数据的脚本,在Response标签下
然后切换到Headers标签,获取Request URL
于是我们得到了JS脚本的地址
http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799
类似的,我们可以获得结果
import requests
url = 'http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799'
wbdata = requests.get(url).text
我们来看看print的结果
可以看到是字符串类型的数据,并且在数据中出现了3147.83,也就是我们的目标数据——开盘点位。为了获取这个数据,我们可以用split()函数,如下所示
data_n = wbdata.split(',')
open_n = data_n[7]
于是我们就得到了开盘点位3147.83。