搜企网爬虫作业

作业要求

（1）csv文件数据写入
（2）mysql 操作，python mysql操作这个需要安装mysql以及python操作mysql数据库的包建议用pymysql
（3）http://www.socom.cn 网站公司信息数据信息可以看这个页面，有兴趣的可以抓全站，至少抓一个省的。

爬取过程

先从首页获取http://www.socom.cn全国所有地区的url。

地区
判断该地区还有没有分县（级市）、片区等

分县（级市）、片区等

该地区不分县（级市）、片区等
如果该地区不分县（级市）、片区等，爬去企业的分类

企业分类
爬去每一类企业的所有企业的链接

企业
根据企业的链接爬去企业的详细信息

企业详细信息

说明

搜企黄页网数据比较多，不适合使用CSV文件保存（数据超过65536），表格最大支持65536行。经爬取验证，北京、天津两个地方的企业就已经有5万多，如果全站爬取的话，肯定会超过65536的限制。

参考代码

# sqwSpider.py
import requests
from lxml import etree
import csv
import time
import sql
# 首页url
home_page_url = 'http://www.socom.cn'
# 详情页url
detail_url = 'http://www.socom.cn/company/16001195.html'
def get_html(url):
    try:
        resp = requests.get(url)
        if resp.status_code == 200:
            return resp
        else:
            return None
    except TimeoutError:
        get_html(url) 


        
    except ConnectionError:
        get_html(url)

# 获取到城市列表
def parse_home_page(home_page_url):
    # /html/body/div[5]/div[2]/a[1]
    citys_url_list = []
    resp = get_html(home_page_url)
    if resp:
        html = resp.text
        root = etree.HTML(html)
        num = len(root.xpath('//body/div[@class="contentBox"][4]/div[@class="provinceBox"]'))
        for i in range(1, num + 1):
            province = root.xpath('//body/div[@class="contentBox"][4]/div[@class="provinceBox"][{}]/a/text()'.format(i))[0]
            # [-452:-4]
            citys = root.xpath('//body/div[@class="contentBox"][4]/div[@class="cityBox"][{}]/a/text()'.format(i))
            citys_url = root.xpath('//body/div[@class="contentBox"][4]/div[@class="cityBox"][{}]/a/@href'.format(i))
            # print(citys)
            citys = []
            for url in citys_url:
                citys.append(home_page_url + url)
            citys_url_list.append(citys)
    return citys_url_list

# 判断地址是不是最终地址(省 -> 地级市 -> 县级市)
def city_is_end(city_url):
    resp = get_html(city_url)
    if resp:
        html = resp.text
        root = etree.HTML(html)
        province = len(root.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "contentBox", " " )) and (((count(preceding-sibling::*) + 1) = 3) and parent::*)]//*[contains(concat( " ", @class, " " ), concat( " ", "cityBox", " " ))]/a/text()'))
        print(province)
        if province == 35:
            return True
        else:
            return False

# 获取县级市
def get_city_part(city_url):
    resp = get_html(city_url)
    if resp:
        html = resp.text
        root = etree.HTML(html)
        city_parts= root.xpath('//body/div[@class="contentBox"][1]/div[@class="cityBox"]/a/@href')
        city_parts_url = []
        for part in city_parts:
            city_parts_url.append(home_page_url + part)
        return city_parts_url
    else:
        return None
    
# 获取最终地区的企业分类
def get_part_url(city_url):
    resp = get_html(city_url)
    if resp:
        html = resp.text
        root = etree.HTML(html)
        corps = root.xpath('//div[@class="contentBox"][2]/div[@class="cityBox"]/a[@class="countyBox"]/@href')
        corps_url = []
        for part in corps:
            corps_url.append(home_page_url + part)
        return corps_url
    else:
        return None

    
# 获取一个分类的所有企业的链接
def get_url_of_corp(part_url):
    resp = get_html(part_url)
    if resp:
        html = resp.text
        root = etree.HTML(html)
        parts = root.xpath('//div[@class="contentBox"][3]/div[@class="cityBox"]/a/@href')
        parts_url = []
        for part in parts:
            parts_url.append(home_page_url + part)
        return parts_url
    else:
        return None

# 获取企业分类进入的url
def get_all_detail_url(home_page_url):
    # urls_list = parse_home_page(home_page_url)
    # for urls in urls_list:
    #     for url in urls:
    #         if city_is_end(url):
    #             print(url)
    #         else:
    #             urls.extend(get_city_part(url))
    #             urls.remove(url)
    # return urls_list
    last_city_list = []
    urls_list = sum(parse_home_page(home_page_url), [])
    # print(urls_list)
    for url in urls_list:
        print(url, end='\t')
        if city_is_end(url):
            print('到头了')
            last_city_list.append(url)
            urls_list.remove(url)
            continue
        else:
            urls_list.extend(get_city_part(url))
            print('获取县级市')
            urls_list.remove(url)
    return last_city_list

# 提取详情页的数据
def parser_detail(resp, db):
    detail = {}
    if resp:
        html = resp.text
        root = etree.HTML(html)
        info = root.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "cityBox", " " ))]//div[(((count(preceding-sibling::*) + 1) = 1) and parent::*)]/text()') if root.xpath('//*[contains(concat( " ", @class, " " ), concat( " ", "cityBox", " " ))]//div[(((count(preceding-sibling::*) + 1) = 1) and parent::*)]/text()') else None
        # print(info)
        if info:
            detail['公司名称'] = root.xpath('//div[@class="contentBox"][2]/div[@class="provinceBox"]/text()')[0]
            detail['地址'] = info[0].strip().split('：')[-1]
            detail['电话'] = info[1].strip().split('：')[-1]
            detail['传真'] = info[2].strip().split('：')[-1]
            detail['手机'] = info[3].strip().split('：')[-1]
            detail['网址'] = info[4].strip().split('：')[-1]
            detail['邮箱'] = info[5].strip().split('：')[-1]
            detail['联系人'] = info[6].strip().split('：')[-1]
            detail['公司人数'] = info[7].strip().split('：')[-1]
            detail['注册资金'] = info[8].strip().split('：')[-1]
            detail['经济类型'] = info[9].strip().split('：')[-1]
            detail['公司产品'] = info[10].strip().split('：')[-1]
            detail['公司简介'] = info[11].strip().split('：')[-1]
            # with open('sqw.csv', 'a', newline='') as csv_file:
            #     writer = csv.writer(csv_file)
            #     print([info for info in detail.values()])
            #     writer.writerow([info for info in detail.values()])
            sql.insert_detail(db, detail)
            return detail
        else:
            return None



def main():
    db = sql.init()
    # with open('sqw.csv', 'w', newline='') as csv_file:
    #     writer = csv.writer(csv_file)
    #     writer.writerow(['公司名称', '地址', '电话', '传真', '手机', '网址', '邮箱', '联系人', '公司人数', '注册资金', '经济类型', '公司产品', '公司简介'])
    detail_urls = get_all_detail_url(home_page_url)
    # 遍历所有的城市
    for url in detail_urls:
        print('下载', url)
        part_url = get_part_url(url)
        # 遍历所有的分类
        for part in part_url:
            print('分类信息', part)
            corp_url = get_url_of_corp(part)
            # 遍历所有的企业
            for corp in corp_url:
                print('公司链接', corp)
                detail = parser_detail(get_html(corp), db)
                time.sleep(1)
        # detail = parser_detail(get_html(url))
        #     writer.writerow([info for info in detail.values()])
    # print(city_is_end('http://www.socom.cn/xinjiang/kelamayi/baijiantan/'))

if __name__ == '__main__':
    main()

# sql.py
from pymongo import MongoClient

def init():
    client = MongoClient('localhost', 27017)
    db = client.sqw
    collectios = db.corp_info
    return db

def insert_detail(db, detail):
    db.my_collection.insert(detail)

输出结果

MongoDB数据库

最后编辑于：2017.12.08 00:47:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342

搜企网爬虫作业

作业要求

爬取过程

说明

参考代码

输出结果

推荐阅读更多精彩内容