Python爬虫学习－爬取大规模数据(10w级）

编译环境：python v3.5.0, mac osx 10.11.4
<big>python爬虫基础知识: Python爬虫学习－基础爬取</big>

了解数据库 MongoDB

数据库是储存数据的地方,可以将如下的字典结构插入到MongoDB的存储单元中。
data = {
'name':peter
'id':123
...
} ＃需存储的文件
数据库的构成：可以将其类比于excel表格进行理解
client = pymongo.MongoClient('localhost',27017) # 将python与mongodb进行连接，'localhost'表示本地环境, 207017是端口号
walden = client['walden'] ＃创建一个库文件
以上代码可以类似于创建一个excel文件，文件名为walden

sheet_tab = walden['sheet_tab'] # 在库文件中建立一个页面名叫 sheet_tab
以上代码可以类似于创建excel文件中的一个表单
数据库的基本操作：
1. 向页边中插入数据：sheet_tab.insert_one(data)
  其中data为python中的字典结构，可有如下代码生成：
  path = './walden.txt' # 输入数据的路径，为读取数据做准备
  with open(path,'r') as f: ＃打开文件，为只读模式
  lines = f.readlines()
  for index,line in enumerate(lines): ＃逐个生成字典元素
  data = {
  'index':index,
  'line' :line,
  'words':len(line.split())
  }
  sheet_tab.insert_one(data) ＃将字典元素插入库文件页面中

筛选数据库中的数据（基础筛选）
sheet_tab.find({'words':{'$lt':5}} # 选择字典中关键字words对应值小于5的所有字典元素
# $lt/$lte/$gt/$gte/$ne，依次等价于</<=/>/>=/!=。（l表示less g表示greater e表示equal n表示not ）

基础实战（筛选房源）

筛选小猪短租网站前三页信息储存到MongoDB中，筛选出价格大于等于500元房源，并打印出来。房源信息具体要求如下：

<big>实战源码</big> （下载地址xiaozhu.py）
# -- coding: utf-8 --
import requests, time, pymongo
from bs4 import BeautifulSoup
def gender_info(soup): # 获取性别信息
gender = 'female' if soup.find_all('div','div.member_ico1') else 'male'
return gender
def get_info(url): ＃获取所需的房源信息
wb_data = requests.get(url) # 向服务器请求页面
wb_data.encoding ='utf-8' # 标明编码为utf-8,以免出现解码错误
soup = BeautifulSoup(wb_data.text,'lxml') # 以lxml方式对页面进行解析
title = soup.select('h4 em')[0].text
address = soup.select('span.pr5')[0].text
price = int(soup.select('div.day_l span')[0].text)
img = soup.select('#curBigImage')[0].get('src')
hostPic = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > a > img')[0].get('src')
hostName = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')[0].text
hostGender = gender_info(soup)
data = {
'title' : title,
'address': address,
'price' : price,
'img' :img,
'hostPic' : hostPic,
'hostName' : hostName,
'hostGender' : hostGender
}
print('get_info Done')
return data
def get_list_url(pageURL): # 获取页面中所有详细房源的url
listUrl = []
wb_data = requests.get(pageURL)
wb_data.encoding = 'utf-8'
soup = BeautifulSoup(wb_data.text,'lxml')
pageList = soup.select('div.result_btm_con.lodgeunitname')
for i in pageList:
listUrl.append(i.get('detailurl'))
print('get_list_url Done')
return listUrl
def get_info_by_page(startPage, endPage, baseURL,database): # 获取整个页面的信息
for i in range(startPage,endPage+1):
url = baseURL.format(i)
listUrl = get_list_url(url)
for j in listUrl:
time.sleep(4)
dataInfo = get_info(j) # 获取每个页面的信息
database.insert_one(dataInfo) # 将信息插入到指定的页面中
print('input to database Done')
client = pymongo.MongoClient('localhost',27017) # 连接mongodb
xiaozhu = client['xiaozhu'] # 创建一个名叫xiaozhu的库文件
home_info = xiaozhu['home_info'] # 创建一个home_info的页面
pageBaseUrl = 'http://bj.xiaozhu.com/search-duanzufang-p{}-0/' # 构造共同url连接
get_info_by_page(1,3,pageBaseUrl,home_info) # 调用函数爬取信息并将信息储存到mongodb中
for info in home_info.find({'price':{'$gte':500}}): # 打印大于等于500的房源信息
print(info)
<big>结果展示</big>
mongoDB中的储存结果(部分截图)

价格大于等于500的房源信息（部分截图）

爬取工作分析流程

<big>1. </big>观察页面特征，保证爬虫程序的通用性，即：发现边界条件和局限性。
例：爬取赶集网-北京二手市场的所有类目中属于<big>个人</big>的商品信息。

观察的到页面（url）变动的信息
发现页面变动边界条件
1. 当把页面设定到150页时，我们发现返回的页面是任意四件商品的信息。因此，我们要据此，判断我们所爬取的页面是否已经到头。避免重复的信息加入到我们的数据库中。
2. 并且通过观察发现网站这一返回操作，我们发现正常页面中有列表链接可以点击，而由于页面超出范围返回的随机商品信息页面没有。
3. 因此我们可以用BeautifulSoup库中的find方法实现这个操作。
  soup.find('ul', 'pageLink') ＃找到返回TRUE，没有返回FALSE
一般这种交易网站，当商品卖出后，商品有关信息页面将会被删除，所以我们爬取的过程中，可能将有商品被卖出，当我们向服务器进行请求该商品详情界面时会出现404 not found。我们可以通过status_code的方法对页面进行判断。
wb_data.status_code == 404 # 判断商品是否已被卖出，卖出则返回TRUE，没有则返回FALSE

<big>2. </big>设计工作流程，保证输出效率和稳定性。

分步进行：先获取channel_list（所有频道分类的URL），保证爬取的稳定性。若是爬取类目信息，与爬取商品信息同步进行的话，当程序出现错误时，我们则什么信息也不能得到。所以分步进行可以降低风险。（图中分类项目下的所有商品详情链接）
多进程爬取： 可以利用multiprocess库中的pool函数，进行多进程爬取，这样可以提高爬取的效率。
关于进程与线程：
可以理解成多个人完成吃饭这个工作的效率：
单线程单进程：只有一个餐桌，一个人在一个餐桌上吃饭，每个人依次进行。
单线程多进程：有多个餐桌，每个餐座上只有一个人在吃饭。
单进程多线程：只有一个餐桌，一个餐桌上可以坐多个人。
多进程多线程：多个餐座,一个餐桌上可以坐多个人。
对项目进行监测：
我们可以设计一个检测函数，隔一段时间汇报所抓取信息的数量，对项目进程进行掌控。
import timeframe page_parsing
import url_list
while True:
print(url_list.find().count())
time.sleep(5)
设计断点续传程序：
由于在我们抓取的过程中可能会遇到网络问题，导致程序终止，而我们不希望重新开始抓取，而是在中断后的地方继续进行抓取。

设计思路如下：
1. 数据库中建立两个页面存放详情商品链接（从这一点也可以看出分步抓取的重要性）。一个存放需要抓取的（url_list1）一个存放已经抓取网商品信息的（url_list2）。

当中断后继续抓取时，url_list1－url_list2就是剩下带抓取的商品信息页面。
db_urls = [item['url'] for item in url_list.find()] # 用列表解析式装入所有要爬取的链接
index_urls = [item['url'] for item in item_info.find()] # 所引出详情信息数据库中所有的现存的 url 字段
x = set(db_urls) # 转换成集合的数据结构
y = set(index_urls)rest_of_urls = x-y ＃剩下的url

爬取结果以及源码(按设计步骤展示）

分类链接列表channel_list
分类详情页列表get_url_from
商品详情列表（单个事例）get_iterms_from
整体运行界面

**All source code **: JacobKam-GitHub

最后编辑于：2017.12.03 05:15:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,271评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,275评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,151评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,550评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,553评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,559评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,924评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,580评论 0赞 257
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,826评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,578评论 2赞 320
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,661评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,363评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,940评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,926评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,156评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,872评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,391评论 2赞 342

Python爬虫学习－爬取大规模数据(10w级）

了解数据库 MongoDB

基础实战（筛选房源）

爬取工作分析流程

爬取结果以及源码(按设计步骤展示）

推荐阅读更多精彩内容