Python爬虫入门：以东方财富网为例

网络爬虫（Web Spider），根据网页地址爬取网页内容，从而获取各类数据，实现多种多样的功能。下面就以爬取东方财富网的数据为例，谈谈最简单的爬虫的实现。爬虫的核心有三个：请求、解析、存储。

环境配置

Python安装使用Anaconda包，包里已经包含了必须的requests模块

请求html页面

import requests
url = 'http://www.eastmoney.com/'
req = requests.get(url)
html = req.content

这样我们就把html网页的源代码下下来了，我们执行

print(html)

就能把网页显示出来

image1.PNG

此时，我们发现网页有乱码现象，这是编码的问题，这时我们指定网页的编码

req.encoding = req.apparent_encoding

就会发现网页显示恢复正常了

image2.PNG

当然，如果我们没有显示的需要，完全没必要指定网页的编码。

解析

获取网页源码后，我们可以对网页的源码进行解析，提取我们想要的信息。使用得较多的是BeautifulSoup模块。我们以提取东方财富网首页的消息为例，右键点击对应的元素，选择检查，然后我们就可以看到网页的源代码了。

image3.PNG

我们发现对应的元素都被<div class="nlist">选定，相应的我们可以把相应的代码筛选出来。

from bs4 import BeautifulSoup
bf = BeautifulSoup(html, 'lxml')
nmlist = bf.find_all(class_ = 'nlist')

发现得到的是一个list文件，每个list包含若干条消息

image4.PNG

我们发现消息的标题和链接被<a>给限定出来，于是我们同样可以用find_all方法获取，以list[0]的消息提取为例，而链接用get方法得到。

a = nlist.find_all('a')
for each in a:
    print(each.string, each.get('href'))

我们看看得到了什么结果

image5.PNG

可以看到标题和链接成功提取出来了。

存储

一般采用csv文件进行存储，可以使用excel等软件打开

date = open('test.csv','w')
writer = csv.writer(date)
date.close()

这样就保存到csv文件了。

全部的代码如下所示

import requests
from bs4 import BeautifulSoup
import csv

date = open('test.csv','w')
writer = csv.writer(date)

url = 'http://www.eastmoney.com/'
req = requests.get(url)
# req.encoding = req.apparent_encoding
html = req.text

bf = BeautifulSoup(html, 'lxml')
nlist = bf.find_all(class_ = 'nlist')[0]
a = nlist.find_all('a')

for each in a:

    a_list = []
    a_list.append(each.string)
    a_list.append(each.get('href'))
    writer.writerow(a_list)

date.close()

这样短短的几行程序，就完成了一个爬虫，但是以上程序只能爬取静态网页，对于javascript动态网页就无能为力。

JS爬虫

解析JS网页一般有两种方法，一种是在网页源码中找到JS脚本数据，爬取到本地解析，另一种是使用Selenium模拟浏览器登录获取。这里介绍第一种，第二种以后有时间再介绍。

获取JS脚本

以chrome浏览器为例，目标网页选择 http://quote.eastmoney.com/web/BK04751.html，以获取银行板块的今日开盘数据为例，当我们使用检查查看网页源码时会发现数据是空白，如下所示：

image6.PNG

这是由于数据被js动态脚本加载，直接采取上面的方法无法获取数据。我们首先要看看js脚本地址。
我们首先右键页面点击检查，标签切到Network，按ctrl + R重新加载

image7.PNG

我们会发现出现了很多JS脚本。接下来按ctrl + F搜索当日开盘点位'3147.83'，我们依次点击每个搜索结果，找到符合包含开盘/最高等数据的脚本，在Response标签下

image8.PNG

然后切换到Headers标签，获取Request URL

image9.PNG

于是我们得到了JS脚本的地址
http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799

类似的，我们可以获得结果

import requests

url = 'http://nufm.dfcfw.com/EM_Finance2014NumericApplication/JS.aspx?type=CT&cmd=BK04751&sty=FDPBPFB&st=z&sr=&p=&ps=&cb=jQuery172040627517238278443_1551425982764&js=([[(x)]])&token=7bc05d0d4c3c22ef9fca8c2a912d779c&_=1551425982799'
wbdata = requests.get(url).text

我们来看看print的结果

image10.PNG

可以看到是字符串类型的数据，并且在数据中出现了3147.83，也就是我们的目标数据——开盘点位。为了获取这个数据，我们可以用split()函数，如下所示

data_n = wbdata.split(',')
open_n = data_n[7]

于是我们就得到了开盘点位3147.83。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

Python爬虫入门：以东方财富网为例

环境配置

请求html页面

解析

存储

JS爬虫

获取JS脚本

推荐阅读更多精彩内容