快上车，scrapy爬虫飙车找福利(三)

前面文章讲到怎么提取动态网页的全部内容。接下来返回文章一，怎么登录并且保存登录状态，以便带上cookies下次访问。

步骤

利用selenium登录知乎，登录成功后保存cookies 到本地。
请求之前读取cookies，加载cookies访问，看是否成功登录。

详细步骤：

利用selenium登录知乎
回到文章一，从自从有了知乎，再也不用找福利了……链接开始。
从提取标题开始：

image.png

if __name__ == '__main__':
   url = 'https://www.zhihu.com/collection/146079773'
   res = requests.get(url, verify=False)
   resSoup = BeautifulSoup(res.content, 'lxml')
   items = resSoup.select("div > h2 > a")
   print(len(items))

verify=False:取消ssl的验证。
运行这段代码，输出结果未0，粘贴该网页到一个没有登录知乎的浏览器打开，重定向到登录页，说明需要登录。

验证：

if __name__ == '__main__':
    url = 'https://www.zhihu.com/collection/146079773'
    # res = requests.get(url, verify=False)
    driver = webdriver.Chrome()
    driver.get(url)
    driver.implicitly_wait(2)
    res = driver.page_source
    resSoup = BeautifulSoup(res, 'lxml')
    items = resSoup.select("div > h2 > a")
    print(len(items))

执行代码，打开浏览器，显示知乎登录页，说明访问收藏夹需要登录。

image.png

登录技巧：
使用selenium打开登录页，设定延时时间（比如60s），手动输入账号密码登录知乎，60秒之后保存cookies到本地，完成登录。后续请求携带保存的cookie进行的登录。如果cookies过期，则简单重复这一步骤。
下面是详细步骤：


if __name__ == '__main__':

    ssl._create_default_https_context = ssl._create_unverified_context
    # url = 'https://www.zhihu.com/collection/146079773'
    url = "https://www.zhihu.com/signin"
    # res = requests.get(url, verify=False)
    driver = webdriver.Chrome()
    driver.implicitly_wait(5)
    driver.get(url)
    time.sleep(40)
    cookies = driver.get_cookies()
    pickle.dump(cookies, open("cookies.pkl", "wb"))
    print("save suc")

执行这段代码，看是否有cookies.pkl文件生成，成功保存了cookies。

接下来用第二段代码去验证。

if __name__ == '__main__':
    cookies = pickle.load(open("cookies.pkl", "rb"))
    url = 'https://www.zhihu.com/collection/146079773'
    driver = webdriver.Chrome()
    driver.get("https://www.zhihu.com/signin")
    for cookie in cookies:
        print(cookie)
        driver.add_cookie(cookie)
    driver.get(url)
    driver.implicitly_wait(2)
    res = driver.page_source
    resSoup = BeautifulSoup(res, 'lxml')
    items = resSoup.select("div > h2 > a")
    print(len(items))

打开浏览器，加载任意网页，接着加载cookies，打开给定的url。运行代码，

image.png

如上，看到打印的cookies和提取的10个标题, 打开浏览器，页面不是登录页，说明登录成功。看cookies的有效时间。即可知道下次cookies的替换时间。

至此，最难定义的动态网页和登录问题已经解决。
下面就是怎么保存抓到的数据。
我的想法是先将需要登录的10页中所有问题和问题链接提取出来，保存为json文件以后后续处理。接着对每一个问题下的所有图片链接提取，保存或者直接下载就看个人选择了。

提取该收藏夹下的全部链接保存到为json文件或者txt文件。
回到爬虫，现在我们已经有了cookies，可以不用selenium很快的保存问题列表。
将上一步保存的cookies.pkl复制一份到根目录，或者配置打开属性。
首先取消settings.py文件中的中间键，

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
    # 'zhihu.middlewares.PhantomJSMiddleware': 100,
}

反爬虫策略：
对于访问过快，网页一般会静止访问或者直接封ip。因此对于需要登录的爬虫来说，限制访问速度，比如5秒/次，或者每个ip每分钟最大访问次数。对于不需要登录的页面来说，使用代理ip是最好的选择，或者降低访问次数都是可行的办法。
settings.py文件的设置，

# Configure maximum concurrent requests performed by Scrapy (default: 16)
# CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 2
# The download delay setting will honor only one of:
# CONCURRENT_REQUESTS_PER_DOMAIN = 16
# CONCURRENT_REQUESTS_PER_IP = 16

这几个选项都是控制访问速度的，一般我设置DOWNLOAD_DELAY即可，即每两秒访问一次。

执行代码如下：

class Zhihu(scrapy.Spider):
    name = "zhihu"
    cookeis = pickle.load(open("cookies.pkl", "rb"))
    urls = []
    questions_url = set()
    for i in range(1, 11):
        temp_url = "https://www.zhihu.com/collection/146079773?page=" + str(i)
        urls.append(temp_url)

    def start_requests(self):
        for url in self.urls:
            request = scrapy.Request(url=url, callback=self.parse, cookies=self.cookeis)
            yield request

    def parse(self, response):
        print(response.url)
        resSoup = BeautifulSoup(response.body, 'lxml')
        items = resSoup.select("div > h2 > a")
        print(len(items))
        for item in items:
            print(item['href'])
            self.questions_url.add(item['href'] + "\n")

    @classmethod
    # 信号的使用
    def from_crawler(cls, crawler, *args, **kwargs):
        print("from_crawler")
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_closed)
        return s

    def spider_opened(self, spider):
        print("spider close, save urls")
        with open("urls.txt", "w") as f:
            for url in self.questions_url:
                f.write(url)

命令行运行爬虫，查看url.txt文件。

image.png

可以看到，成功抓取了44个链接，去除people， zhuanlan等几个无效链接，
后面即可从该文件读取内容，拼接链接，利用selenium做中间键提取所有的图片链接。

总结：这本文章讲了如何利用selenium去手动登录网站，保存cookies，以后后续登录（几乎可以登录所有的网站，限制访问速度避免被封）。

这三篇文章讲解了怎么使用scrapy去抓取想要的东西。现在无需使用框架，也可以涉及实现自己的爬虫。对于怎么保存图片，使用代理，后面会做简单介绍。
后面会写一篇怎么将爬虫部署在服务器上，利用docker搭建python环境去执行爬虫。

weixin：youquwen1226
github：https://github.com/yunshuipiao
欢迎来信探讨。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,921评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,635评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,393评论 0赞 338
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,836评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,833评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,685评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,043评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,694评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 42,671评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,670评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,779评论 1赞 332
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,424评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,027评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,984评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,214评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,108评论 2赞 351
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,517评论 2赞 343

快上车，scrapy爬虫飙车找福利(三)

步骤

详细步骤：

推荐阅读更多精彩内容