python实战计划的第七个项目:爬取武汉赶集网。
1.任务介绍
大致可以分为3个层次:
a.第一个层次:获取类目的各个标题链接
b.第二个层次:爬取进入标题后,页面中所有商品的标题链接,并存储在数据库表单中,我这里是link_sheet表单。
c.进入第二层爬取的商品链接,进入后爬去商品的标题,价格等信息,并存储在表单中,我这里是info_sheet表单。
2.任务分析
a.
第一层次,我们要的链接都放在channel_list列表中。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_all_links():
url = 'http://wh.ganji.com/wu/'
url_host = 'http://wh.ganji.com'
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links = soup.select('#wrapper > div.content > div > div > dl > dt > a')
for link in links:
link = url_host + link.get('href')
print(link)
get_all_links()
channel_list = ['http://wh.ganji.com/jiaju/',
'http://wh.ganji.com/rirongbaihuo/',
'http://wh.ganji.com/shouji/',
'http://wh.ganji.com/shoujihaoma/',
'http://wh.ganji.com/bangong/',
'http://wh.ganji.com/nongyongpin/',
'http://wh.ganji.com/jiadian/',
'http://wh.ganji.com/ershoubijibendiannao/',
'http://wh.ganji.com/ruanjiantushu/',
'http://wh.ganji.com/yingyouyunfu/',
'http://wh.ganji.com/diannao/',
'http://wh.ganji.com/xianzhilipin/',
'http://wh.ganji.com/fushixiaobaxuemao/',
'http://wh.ganji.com/meironghuazhuang/',
'http://wh.ganji.com/shuma/',
'http://wh.ganji.com/laonianyongpin/',
'http://wh.ganji.com/xuniwupin/',
'http://wh.ganji.com/qitawupin/',
'http://wh.ganji.com/ershoufree/',
'http://wh.ganji.com/wupinjiaohuan/']
b.
接下来,我要分别进入到上面链接中,爬取出商品链接,并不断翻页进行,将爬到的链接存储到link_sheet表单中。
首先创建get_link()函数,接收参数3个(分类链接,页面,默认个人‘o’)。
作用:输入参数分类链接与页数后,可以将页面上私人发布的商品链接全获取下来,并存储到表单中,该函数不会重复抓取抓过的链接。
def get_link(channel, page, who_sell='o'):
# http://wh.ganji.com/jiaju/ channel个例
# http://wh.ganji.com/jiaju/o1/ 完整参数个例
url = '{}{}{}/'.format(channel, who_sell, page)
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text, 'lxml')
links = soup.select('li.js-item > a')
for link in links:
link = link.get('href')
# 判断链接是否存在表单中,防止重复添加
# find_one()返回的是一个字典,find()则是一个对象
if link_sheet.find_one({'url': link}):
print('已存在,Pass')
else:
link_sheet.insert_one({'url': link})
print('新链接,已添加')
创建get_all_channel_links()函数,只需输入类别链接,自动爬取1-100页面的商品链接。
为了加快爬取得速度,这里使用了Pool()函数和map()函数。
def get_all_channel_links(channel):
for i in range(1, 101):
get_link(channel, i)
if __name__ == '__main__':
pool = Pool()
pool.map(get_all_channel_links, channel_list)
pool.close()
pool.join()
另外,我用一下代码来打印出目前爬取得商品链接的个数。
import time
from b import link_sheet
while True:
print(link_sheet.find().count())
time.sleep(4)
#最后显示,一共获取了34775条链接
------map()函数例子,注意Python3要在外面加list(),map函数才会返回一个列表。
list_a = [1, 2, 3, 4, 5, 6]
def a(x):
return x * x
b = list(map(a, list_a))
print(b)
#[1, 4, 9, 16, 25, 36]
------pool()进程池函数例子。
from multiprocessing import Pool
def f(x):
for i in range(10):
print '%s --- %s ' % (i, x)
def main():
pool = Pool(processes=3) # set the processes max number 3
for i in range(11,20):
result = pool.apply_async(f, (i,))
pool.close()
pool.join()
if result.successful():
print 'successful'
if __name__ == "__main__":
main()
先创建容量为3的进程池,然后将f(i)依次传递给它,运行脚本后利用ps aux | grep pool.py查看进程情况,会发现最多只会有三个进程执行。
pool.apply_async()用来向进程池提交目标请求,pool.join()是用来等待进程池中的worker进程执行完毕,防止主进程在worker进程结束前结束。
但必pool.join()必须使用在pool.close()或者pool.terminate()之后。
其中close()跟terminate()的区别在于close()会等待池中的worker进程执行结束再关闭pool,而terminate()则是直接关闭。
result.successful()表示整个调用执行的状态,如果还有worker没有执行完,则会抛出AssertionError异常。
利用multiprocessing下的Pool可以很方便的同时自动处理几百或者上千个并行操作,脚本的复杂性也大大降低。
c.
到了最后,也是最有价值的地方,我们要对link_sheet表单中的34775条商品链接进行信息的收集。
创建get_item_info()函数,接收商品链接参数后,返回标题等信息,并存储在数据库表单info_sheet中,注意将链接也一并添加,好在后面防止重复抓取。
# 一个参数(单个商品链接),获取标题、价钱、发布时间、区域、分类
def get_item_info(url):
wb_data = requests.get(url)
if wb_data.status_code != 200:
return
soup = BeautifulSoup(wb_data.text, 'lxml')
title = soup.select('h1.title-name')
price = soup.select('i.f22.fc-orange.f-type')
pub_date = soup.select('i.pr-5')
area = soup.select('ul.det-infor > li:nth-of-type(3) > a')
cate = soup.select('ul.det-infor > li:nth-of-type(1) > span > a')
data = {
'title': title[0].get_text(),
'price': price[0].get_text(),
'pub_data': pub_date[0].get_text().strip().split('\xa0')[0],
'area': [area.text for area in area],
'cate': [cate.text for cate in cate],
'url': url
}
info_sheet.insert_one(data)
print(data)
为了保证我们断开抓取之后,第二次抓取的链接是没抓取部分的,rest_of_urls就是我们要抓取的链接的集合。
db_url = [item['url'] for item in link_sheet.find()]
index_url = [item['url'] for item in info_sheet.find()]
x = set(db_url)
y = set(index_url)
rest_of_urls = x - y # rest_of_urls就是没爬取的链接
调用上面创建的函数,同样使用Pool()函数,如下:
if __name__ == '__main__':
pool = Pool()
pool.map(get_item_info, rest_of_urls)
pool.close()
pool.join()
过程中被反爬取中断了几次,然后继续接着开始。