爬虫—拉钩网招聘岗位爬取

爬取拉勾网各类招聘岗位，爬取不同的岗位种类只需要初始化时候传入参数不同，爬取成功后会自动写入同目录的csv文件中，本例未使用到多线程。

"""
__coding__ = 'UTF-8'
__author__ = 'bingo'
__date__ = '2020/12/13'
# code is far away from bugs with the god animal protecting
    I love animals. They taste delicious.
             ┏┓   ┏┓
            ┏┛┻━━━┛┻━━┓
            ┃    ☃    ┃
            ┃  ┳┛  ┗┳ ┃
            ┃     ┻   ┃
            ┗━┓     ┏━┛
              ┃     ┗━━━━━┓
              ┃  神兽保佑  ┣┓
              ┃　永无BUG！ ┏┛
              ┗━━━┓┓┏━━┳┓┏┛
                  ┃┫┫  ┃┫┫
                  ┗┻┛  ┗┻┛
"""
import requests
import random
import csv
from urllib.parse import quote
import time

class LaGou(object):

    USER_AGENT = [
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36",
            "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36 SLBrowser/6.0.1.9171"
        ]
    tasks = []

    def __init__(self, position):
        # 需要搜索的职位
        self.search_position = position

        self.request_url = "https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false"
        self.cookies = None
        self.f = open(f"拉勾{self.search_position}岗位.csv", mode="w+", encoding='gbk', newline='', errors="ignore")
        self.csv = csv.writer(self.f, delimiter=",")

    def get_request_cookie(self):
        """
        由于拉钩的反爬机制，请求时候必须携带上cookie，并且cookie有效时间很短，此函数用来获取并刷新全局cookie
        :return:
        """
        url = "https://www.lagou.com/jobs/list_{}?labelWords=&fromSearch=true&suginput="
        headers = {
            "user-agent": random.choice(self.USER_AGENT)
        }
        try:
            session = requests.Session()
            res = session.get(url.format(quote(self.search_position)), headers=headers)
            if res.status_code == 200:
                self.cookies = res.cookies
                print("获取cookies成功")
            else:
                print("获取cookies失败")
        except Exception as e:
            print("获取cookies失败")

    def get_page_data(self, i):
        """
        获取每一页的内容
        :param i: 页码
        :return:
        """
        j = {
            "first": False,
            "pn": 2,
            "kd": self.search_position
        }
        headers = {
            "Referer": "https://www.lagou.com/jobs/list_{}?labelWords=&fromSearch=true&suginput=".format(quote(self.search_position)),
            'Host': 'www.lagou.com',
            "user-agent": random.choice(self.USER_AGENT)
        }

        # 每获取5页刷新一次cookie
        if i % 5 == 0:
            self.get_request_cookie()

        # 伪造浏览器代理
        headers["user-agent"] = random.choice(self.USER_AGENT)

        # 页码变量
        j["pn"] = i

        # 获取原始数据
        for retry_time in range(10):
            res = requests.post(self.request_url, data=j, headers=headers, cookies=self.cookies)
            result = res.json()

            # 如果成功走入该分支，返回岗位信息
            if result.get("success"):
                position_result = result["content"]["positionResult"]
                print(f"第{i}页爬取成功：{position_result}")

                if position_result["resultSize"] == 0:
                    print("所有数据爬取完毕")
                    return 0

                all_position = position_result["result"]
                return all_position

            # 如果失败刷新cookie，走入循环重新爬取
            else:
                time.sleep(2)
                self.get_request_cookie()
                continue
        else:
            print(f"第{i}页爬取失败: {res.json()}")
            return None


    def get_all_data(self, page_range=None):
        # 需要爬取的页码范围，不传page_range, 默认爬取前30页数据
        if isinstance(page_range, int):
            r_ = range(1, page_range+1)
        elif isinstance(page_range, (tuple, list)):
            r_ = range(page_range[0], page_range[1]+1)
        else:
            r_ = range(1, 31)

        # 第一次获取cookie
        self.get_request_cookie()
        for i in r_:
            positions = self.get_page_data(i)

            if positions == 0:
                break

            if positions:
                # 写csv的头信息
                if i == 1 or i == r_[0]:
                    csv_headers = list(positions[0].keys())
                    self.csv.writerow(csv_headers)

                # 写入具体内容
                for p in positions:
                    self.csv.writerow(list(p.values()))

    def __del__(self):
        self.f.close()


if __name__ == "__main__":
    l = LaGou("数据分析")
    l.get_all_data(page_range=20)

运行结果：

效果图

csv文件：

保存的文件

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

爬虫—拉钩网招聘岗位爬取

推荐阅读更多精彩内容