Python实战计划week2_3项目

python实战计划的第七个项目:爬取武汉赶集网。

1.任务介绍

大致可以分为3个层次:

a.第一个层次:获取类目的各个标题链接


2_3_a.png

b.第二个层次:爬取进入标题后,页面中所有商品的标题链接,并存储在数据库表单中,我这里是link_sheet表单。


2_3_b.png

c.进入第二层爬取的商品链接,进入后爬去商品的标题,价格等信息,并存储在表单中,我这里是info_sheet表单。


2_3_c.png

2.任务分析

a.

第一层次,我们要的链接都放在channel_list列表中。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup


def get_all_links():
    url = 'http://wh.ganji.com/wu/'
    url_host = 'http://wh.ganji.com'
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('#wrapper > div.content > div > div > dl > dt > a')
    for link in links:
        link = url_host + link.get('href')
        print(link)


get_all_links()

channel_list = ['http://wh.ganji.com/jiaju/',
                'http://wh.ganji.com/rirongbaihuo/',
                'http://wh.ganji.com/shouji/',
                'http://wh.ganji.com/shoujihaoma/',
                'http://wh.ganji.com/bangong/',
                'http://wh.ganji.com/nongyongpin/',
                'http://wh.ganji.com/jiadian/',
                'http://wh.ganji.com/ershoubijibendiannao/',
                'http://wh.ganji.com/ruanjiantushu/',
                'http://wh.ganji.com/yingyouyunfu/',
                'http://wh.ganji.com/diannao/',
                'http://wh.ganji.com/xianzhilipin/',
                'http://wh.ganji.com/fushixiaobaxuemao/',
                'http://wh.ganji.com/meironghuazhuang/',
                'http://wh.ganji.com/shuma/',
                'http://wh.ganji.com/laonianyongpin/',
                'http://wh.ganji.com/xuniwupin/',
                'http://wh.ganji.com/qitawupin/',
                'http://wh.ganji.com/ershoufree/',
                'http://wh.ganji.com/wupinjiaohuan/']

b.

接下来,我要分别进入到上面链接中,爬取出商品链接,并不断翻页进行,将爬到的链接存储到link_sheet表单中。

首先创建get_link()函数,接收参数3个(分类链接,页面,默认个人‘o’)。
作用:输入参数分类链接与页数后,可以将页面上私人发布的商品链接全获取下来,并存储到表单中,该函数不会重复抓取抓过的链接。

def get_link(channel, page, who_sell='o'):
    # http://wh.ganji.com/jiaju/  channel个例
    # http://wh.ganji.com/jiaju/o1/  完整参数个例
    url = '{}{}{}/'.format(channel, who_sell, page)
    wb_data = requests.get(url)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    links = soup.select('li.js-item > a')
    for link in links:
        link = link.get('href')
        # 判断链接是否存在表单中,防止重复添加
        # find_one()返回的是一个字典,find()则是一个对象
        if link_sheet.find_one({'url': link}):
            print('已存在,Pass')
        else:
            link_sheet.insert_one({'url': link})
            print('新链接,已添加')

创建get_all_channel_links()函数,只需输入类别链接,自动爬取1-100页面的商品链接。
为了加快爬取得速度,这里使用了Pool()函数和map()函数。

def get_all_channel_links(channel):
    for i in range(1, 101):
        get_link(channel, i)


if __name__ == '__main__':
    pool = Pool()
    pool.map(get_all_channel_links, channel_list)
    pool.close()
    pool.join()

另外,我用一下代码来打印出目前爬取得商品链接的个数。

import time
from b import link_sheet

while True:
    print(link_sheet.find().count())
    time.sleep(4)

#最后显示,一共获取了34775条链接

------map()函数例子,注意Python3要在外面加list(),map函数才会返回一个列表。

list_a = [1, 2, 3, 4, 5, 6]
def a(x):
    return x * x
b = list(map(a, list_a))
print(b)
#[1, 4, 9, 16, 25, 36]

------pool()进程池函数例子。

    from multiprocessing import Pool
    def f(x):
        for i in range(10):
            print '%s --- %s ' % (i, x)

    def main():
        pool = Pool(processes=3)    # set the processes max number 3
        for i in range(11,20):
            result = pool.apply_async(f, (i,))
        pool.close()
        pool.join()
        if result.successful():
            print 'successful'

    if __name__ == "__main__":
        main()

先创建容量为3的进程池,然后将f(i)依次传递给它,运行脚本后利用ps aux | grep pool.py查看进程情况,会发现最多只会有三个进程执行。

pool.apply_async()用来向进程池提交目标请求,pool.join()是用来等待进程池中的worker进程执行完毕,防止主进程在worker进程结束前结束。

但必pool.join()必须使用在pool.close()或者pool.terminate()之后。

其中close()跟terminate()的区别在于close()会等待池中的worker进程执行结束再关闭pool,而terminate()则是直接关闭。

result.successful()表示整个调用执行的状态,如果还有worker没有执行完,则会抛出AssertionError异常。

利用multiprocessing下的Pool可以很方便的同时自动处理几百或者上千个并行操作,脚本的复杂性也大大降低。

c.

到了最后,也是最有价值的地方,我们要对link_sheet表单中的34775条商品链接进行信息的收集。

创建get_item_info()函数,接收商品链接参数后,返回标题等信息,并存储在数据库表单info_sheet中,注意将链接也一并添加,好在后面防止重复抓取。

# 一个参数(单个商品链接),获取标题、价钱、发布时间、区域、分类
def get_item_info(url):
    wb_data = requests.get(url)
    if wb_data.status_code != 200:
        return
    soup = BeautifulSoup(wb_data.text, 'lxml')
    title = soup.select('h1.title-name')
    price = soup.select('i.f22.fc-orange.f-type')
    pub_date = soup.select('i.pr-5')
    area = soup.select('ul.det-infor > li:nth-of-type(3) > a')
    cate = soup.select('ul.det-infor > li:nth-of-type(1) > span > a')
    data = {
        'title': title[0].get_text(),
        'price': price[0].get_text(),
        'pub_data': pub_date[0].get_text().strip().split('\xa0')[0],
        'area': [area.text for area in area],
        'cate': [cate.text for cate in cate],
        'url': url
    }
    info_sheet.insert_one(data)
    print(data)

为了保证我们断开抓取之后,第二次抓取的链接是没抓取部分的,rest_of_urls就是我们要抓取的链接的集合。

db_url = [item['url'] for item in link_sheet.find()]
index_url = [item['url'] for item in info_sheet.find()]
x = set(db_url)
y = set(index_url)
rest_of_urls = x - y  # rest_of_urls就是没爬取的链接

调用上面创建的函数,同样使用Pool()函数,如下:

if __name__ == '__main__':
   pool = Pool()
   pool.map(get_item_info, rest_of_urls)
   pool.close()
   pool.join()

过程中被反爬取中断了几次,然后继续接着开始。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,053评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,527评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,779评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,685评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,699评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,609评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,989评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,654评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,890评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,634评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,716评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,394评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,976评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,950评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,191评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,849评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,458评论 2 342

推荐阅读更多精彩内容