第二周/第二周实战作业: 爬取10万商品数据

1. 引言

Paste_Image.png
标题 说明
网址 http://sh.ganji.com/wu/
要求1 点进来, 拉到页面底部
要求2 需要爬取赶集网-上海-二手市场的所有类目的商品信息
要求3 点进来的列表页, 抓取个人类目下的全部帖子
Paste_Image.png

Paste_Image.png

2. 分析

  • 分类查找:

检查元素, 输入.fenlei > dt > a可以等到全部分类链接

Paste_Image.png

页数随最后一个数字变化

多了a2字符, 页数随最后一个数字变化

  • 列表页中链接查找:

.ft-tit找到全部链接, 接着过虑掉包含click关键字的推广商品和zhuanzhuan商品

Paste_Image.png

  • 列表尾部:

只有5个条目:


Paste_Image.png
  • 已卖完商品返回的页面状态码为404
  • 详情信息抓取采用断点续传和多进程

3. 实现部分

3.1 基础模块
# vim spider_ganji.py  // 基础模块
#!/usr/bin/env python3                                                                                                       
# -*- coding: utf-8 -*-                                                                                                      
                                                                                                                             
__author__ = 'jhw'                                                                                                           
                                                                                                                             
                                                                                                                             
from bs4 import BeautifulSoup                                                                                                
from pymongo import MongoClient                                                                                              
import requests                                                                                                              
                                                                                                                             
                                                                                                                             
headers = {                                                                                                                  
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36'
    'Accept-Encoding': 'gzip, deflate',                                                                                      
    'Accept-Language': 'zh-CN,zh',                                                                                           
    'Connection': 'keep-alive',                                                                                              
}                                                                                                                            
                                                                                                                             
# 自定义要抓取区域, 拼音简写                                                                                                 
locale = 'sh'                                                                                                                
                                                                                                                             
client = MongoClient('10.66.17.17', 27017)                                                                                   
database = client['ganji']                                                                                                   
# 区域分表存入mongodb                                                                                                        
url_info = database['{}_ershou_url'.format(locale)]                                                                          
# 已抓取的url存入此表                                                                                                        
url_info_exists = database['{}_ershou_url_exists'.format(locale)]                                                            
# 商品信息存储表                                                                                                             
item_info = database['{}_ershou_item'.format(locale)]                                                                        
# 将要抓取的全部url放入此列表中                                                                                              
url_info_list = [item['url'] for item in url_info.find()]                                                                    
# 抓取完毕的url放入此列表中                                                                                                  
url_info_exists_list = [item['url'] for item in url_info_exists.find()]                                                      
                                                                                                                             
                                                                                                                             
# 定义获取主分类链接的函数                                                                                                   
def get_url_index(locale):                                                                                                   
                                                                                                                             
    # 链接根据上面给定的区域决定                                                                                             
    url = 'http://{}.ganji.com/wu/'.format(locale)                                                                           
    data = requests.get(url, headers=headers)                                                                                
    soup = BeautifulSoup(data.text, 'lxml')                                                                                  
    links = soup.select('.fenlei > dt > a')                                                                                  
                                                                                                                             
    # 定义存储分类链接的列表                                                                                                 
    L = []                                                                                                                   
    for link in links:                                                                                                       
        # 组合一条完整的分类链接                                                                                             
        link_pre = url.split('wu/')[0]+'{}/'.format(link.get('href').strip('/'))                                             
        # 将分类链接存入分类列表                                                                                             
        L.append(link_pre)                                                                                                   
                                                                                                                             
    # 返回分类链接列表, 用作多进程                                                                                           
    return L

                                                                                                                             
# 定义循环获取全部url的商品信息函数, 主分类链接传入                                                                          
def get_url_from_list(url, who_sells=''):                                                                                    
                                                                                                                             
    # 主分类链接循环加入页数                                                                                                 
    for page in range(1, 200):                                                                                               
        # 一条完整的带有页数的商品链接                                                                                       
        url_full = url + '{}o{}'.format(who_sells, page)                                                                     
        # 执行获取商品信息函数, 同时返回执行状态码                                                                           
        code = get_url_info(url_full, page)                                                                                  
                                                                                                                             
        # 返回的条目少于10则判断到了页面尾部, 退出循环                                                                       
        if code < 10:                                                                                                        
            print('$'*20, '%s End of the pages!!!' % url_full, '$'*20, '\n\n')                                               
            break                                                                                                            
                                                                                                                             
        print('\n')                                                                                                          
                                                                                                                             
                                                                                                                             
# 定义获取各分类页中商品链接的函数                                                                                           
def get_url_info(url, page):                                                                                                 
                                                                                                                             
    # 截取出链接属于哪个分类                                                                                                 
    cate = url.split('/')[-2]                                                                                                
    data = requests.get(url, headers=headers)                                                                                
                                                                                                                             
    # 讲求失败则退出                                                                                                         
    if data.status_code != 200:                                                                                              
        print('%s Request Error!!!' % data.status_code)                                                                      
    else:                                                                                                                    
        soup = BeautifulSoup(data.text, 'lxml')                                                                              
        # links = soup.select('.ft-db ul li > a')                                                                            
        links = soup.select('.ft-tit')                                                                                       
        # judge = len(soup.select('dl.list-bigpic'))                                                                         
        # 获取页面中商品的总条目                                                                                             
        judge = len(links)                                                                                                   
                                                                                                                             
        # 如果商品总条目为5则判断此页面是列表页的最后一页, 不再抓取                                                          
        if judge == 5:                                                                                                       
            print(cate, '-', page, "Error, We can't find anything because there is nothing to be found.")                    
        else:                                                                                                                
            for i in links:                                                                                                  
                link = i.get('href')                                                                                         
                                                                                                                             
                # 推广商品和转转商品过虑掉                                                                                   
                if 'click' not in link and 'zhuanzhuan' not in link:
                    # 商品链接存入mongodb中负责存储商品链接的表中                                                         
                    url_info.insert_one({'url': link})
                    # 打印目前抓取的是哪个分类中的哪一页                                                                       
                    print(cate, '-', page, '=>', link)                                                                       
    
    # 返回此页商品的总条目, get_url_from_list会用到                                                                                                                         
    return judge
                                                                                                                             
                                                                                                                             
# 定义获取商品详情页信息的函数                                                                                               
def get_item_from(url):                                                                                                      
                                                                                                                             
    # 如果商品之前已经抓取过则退出                                                                                           
    if url in url_info_exists_list:                                                                                          
        print('#'*20, '"%s" has been opened before...' % url, '#'*20)                                                        
    else:                                                                                                                    
        print(url)                                                                                                           
        data = requests.get(url, headers=headers)                                                                            
        # 页面请求错误则退出                                                                                                 
        if data.status_code != 200:                                                                                          
            print('E'*20, '%s request error...', 'E'*20)                                                                     
        # 页面返回404表示商品已卖完, 退出                                                                                    
        elif data.status_code == 404:                                                                                        
            print('W'*20, 'This article has been to Mars...', 'W'*20)                                                        
        else:                                                                                                                
            soup = BeautifulSoup(data.text, 'lxml')                                                                          
            # 商品标题                                                                                                       
            titles = soup.select('.title-name')                                                                              
            # 商品发布时间                                                                                                   
            updates = soup.select('.pr-5')                                                                                   
            # views = soup.select('#pageviews')                                                                              
            # 商品类型                                                                                                       
            types = soup.select('.det-infor > li:nth-of-type(1) > span')                                                     
            # 商品价格                                                                                                       
            prices = soup.select('.f22')                                                                                     
            # 商品区域                                                                                                       
            areas = soup.select('.det-infor > li:nth-of-type(3) > a')                                                        
            # 商品成色                                                                                                       
            degrees = soup.select('.second-det-infor > li')                                                                  
                                                                                                                             
            # 有的商品没有发布时间, 还有时请求网页获取的时间有错, 暂时先这么判断                                             
            if updates:                                                                                                      
                if len(updates[0].get_text()) <= 3:                                                                          
                    update = None                                                                                            
                else:                                                                                                        
                    update = updates[0].get_text().strip().split()[0]                                                        
            else:                                                                                                            
                update = None                                                                                                
                                                                                                                             
            data = {                                                                                                         
                'title': titles[0].get_text() if titles else None,                                                           
                'update': update,                                                                                            
                'type': types[0].get_text().replace('\n', '').replace(' ', '') if types else None,                           
                'price': int(prices[0].get_text()) if prices else 0,                                                         
                'area': [i.get_text().strip() for i in areas] if areas else None,                                            
                'degree': degrees[0].get_text().split('\n')[-1].replace(' ', '') if degrees else None,                       
                'cate': url.split('/')[-2],                                                                                  
            }                                                                                                                
                                                                                                                             
            print(data)
            # 商品信息存入mongodb                                                                                            
            item_info.insert_one(data)                                                                                       
            # 商品信息抓取完后, 将此商品的链接存入mongodb中存放已经抓取完毕的url表中                                         
            url_info_exists.insert_one({'url': url})                                                                         
                                                                                                                             

# 获取主分类链接列表                                                                                                                             
url_index = get_url_index(locale)
3.2 抓取全部商品链接
  # vim main.py  //程序入口
#!/usr/bin/env python3                                                                                                       
# -*- coding: utf-8 -*-                                                                                                      
                                                                                                                             
__author__ = 'jhw'                                                                                                           
                                                                                                                             
                                                                                                                             
# 从自定义模块中导入获取商品链接的函数和主分类列表                                                                           
from spider_ganji import get_url_from_list, url_index                                                                        
# 从自定义模块中导入获取商品详情的函数和商品链接列表                                                                         
# from spider_ganji import get_item_from, url_info_list                                                                        
# 导入多进程模块                                                                                                             
from multiprocessing import Pool                                                                                             
                                                                                                                             
                                                                                                                             
if __name__ == '__main__':                                                                                                   
    pool = Pool()                                                                                                            
    # 多进程获取全部商品链接                                                                                                 
    pool.map(get_url_from_list, url_index)                                                                                 
    # 多进程获取全部商品详情信息                                                                                             
    # pool.map(get_item_from, url_info_list)                                                                                   
    # 调用join()之前必须先调用close(), 调用close()之后就不能继续添加新的Process了                                            
    pool.close()                                                                                                             
    # 对Pool对象调用join()方法会等待所有子进程执行完毕                                                                       
    pool.join()
# python3 main.py  // 开启多进程抓取商品链接, 4核CPU开启了4个进程
shouji - 2 => http://sh.ganji.com/shouji/1525463821x.htm
shouji - 2 => http://sh.ganji.com/shouji/1637265573x.htm
shouji - 2 => http://sh.ganji.com/shouji/1469334107x.htm
.
jiadian - 3 => http://sh.ganji.com/jiadian/2181455484x.htm
jiadian - 3 => http://sh.ganji.com/jiadian/2181302594x.htm
jiadian - 3 => http://sh.ganji.com/jiadian/1899011509x.htm
.
jiaju - 3 => http://sh.ganji.com/jiaju/2182971064x.htm
jiaju - 3 => http://sh.ganji.com/jiaju/2170617991x.htm
jiaju - 3 => http://sh.ganji.com/jiaju/2109235459x.htm
.
bangong - 3 => http://sh.ganji.com/bangong/2050123549x.htm
bangong - 3 => http://sh.ganji.com/bangong/2207236120x.htm
bangong - 3 => http://sh.ganji.com/bangong/1880908704x.htm
3.3 抓取全部商品详情信息
# vim main.py    // 程序入口
# -*- coding: utf-8 -*-                                                                                                      
                                                                                                                             
__author__ = 'jhw'                                                                                                           
                                                                                                                             
                                                                                                                             
# 从自定义模块中导入获取商品链接的函数和主分类列表                                                                           
# from spider_ganji import get_url_from_list, url_index                                                                      
# 从自定义模块中导入获取商品详情的函数和商品链接列表                                                                         
from spider_ganji import get_item_from, url_info_list                                                                        
# 导入多进程模块                                                                                                             
from multiprocessing import Pool                                                                                             
                                                                                                                             
                                                                                                                             
if __name__ == '__main__':                                                                                                   
    pool = Pool()                                                                                                            
    # 多进程获取全部商品链接                                                                                                 
    # pool.map(get_url_from_list, url_index)                                                                                 
    # 多进程获取全部商品详情信息                                                                                             
    pool.map(get_item_from, url_info_list)                                                                                   
    # 调用join()之前必须先调用close(), 调用close()之后就不能继续添加新的Process了                                            
    pool.close()                                                                                                             
    # 对Pool对象调用join()方法会等待所有子进程执行完毕                                                                       
    pool.join()
# python3 main.py  //开启多进程抓取商品详情信息, 4核CPU开启了4个进程
#################### "http://sh.ganji.com/meironghuazhuang/2197468267x.htm" has been opened before... ####################
#################### "http://sh.ganji.com/meironghuazhuang/2119557406x.htm" has been opened before... ####################
#################### "http://sh.ganji.com/meironghuazhuang/2118152395x.htm" has been opened before... ####################
#################### "http://sh.ganji.com/xianzhilipin/2022660697x.htm" has been opened before... ####################
.
http://sh.ganji.com/jiadian/2196681538x.htm
{'title': '出售5.2KG海尔滚筒洗衣机 - 500元', 'type': '大家电', 'degree': None, 'price': 500, 'cate': 'jiadian', 'update': '07-06', 'area': ['上海', '长宁', '中山公园']}
http://sh.ganji.com/jiadian/2205076770x.htm
{'title': '品牌办公家具大量低价抛售!震旦、美时、欧美、励致、天坛等! - 88元', 'type': '其他办公家具', 'degree': '95成新,可送货', 'price': 88, 'cate': 'bangong', 'update': None, 'area': ['上海', '浦东', '八佰伴']}
.
http://sh.ganji.com/bangong/1660785908x.htm
{'title': '进口音箱功放机投影机空调3P红木办公桌书柜茶桌房子卖了搬家。 - 2500元', 'type': '书柜', 'degree': '95成新,可送货', 'price': 2500, 'cate': 'jiadian', 'update': '07-06', 'area': ['上海', '浦东']}
http://sh.ganji.com/jiadian/2205106758x.htm
{'title': '前台,移动柜子,办公椅子 - 300元', 'type': '前台桌', 'degree': '8成新,不包送货', 'price': 300, 'cate': 'jiaju', 'update': '07-05', 'area': ['上海', '普陀', '曹杨新村']}

4. 总结

  • 多进程利用map由主函数作用于列表
  • 循环执行的程序可由返回的状态来决定退出与否
  • Pool的默认大小是CPU的核心数,因此,最多同时执行4个进程。这是Pool有意设计的限制,并不是操作系统的限制。如果改成:
    p = Pool(5)
    就可以同时跑5个进程。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,098评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,213评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,960评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,519评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,512评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,533评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,914评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,574评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,804评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,563评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,644评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,350评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,933评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,908评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,146评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,847评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,361评论 2 342

推荐阅读更多精彩内容