大型情感剧集Selenium：7_使用selenium,让整个简书网站都认识我！

安静的学习，真好

媳妇儿带着孩子去旅游，终于可以一个人听着陶喆的歌学习、写博客了，这感觉真好!（明天我媳妇儿看到文章，又要...）
今天早上收到了一份哭笑不得的鼓励，一位朋友说我真勤劳，每天早上早起看一篇python文章，然后还发到朋友圈。
写公众号一个月了，每天早上朋友圈转发一下文章，算是我最大的推广了，然后被认为是我读别人的文章。
好吧，那我读文章的时候，比这个写文章的人时间不落分毫，哈哈。

说说selenium这个系列

这个大型情感剧集selenium系列，从开始做到现在第七集。一直在更新些零碎的知识，也没有系统的写过这方面代码。
很多朋友觉得这个系列的文章，就只是面向自动化测试去写的，其他人没必要看，学了没用。然后导致这个系列整体的阅读量炒鸡低！
那么今天，针对咱们之前学的只是，再补充一些，来做一个联系吧，名字就叫：使用selenium，让整个简书网站都认识我！张狂吧？其实开玩笑的，简书有安全回复机制，禁止短时间进行刷屏的...
通过这篇文章我想告诉你，任何人学selenium，都不是白费的！想做微商、推广的更应该关注我这篇文章，哈哈。

避坑指南与涉及知识点

大概罗列下场景覆盖中，涉及到的知识点

cookie登陆简书

本来想找个新账号的，但就我一个人，这会儿2点了朋友圈求不怕封想出名的账号，貌似也没结果
携带cookie登陆简书的方法，我上篇文章说了，就不再赘述了。

动态刷新简书首页文章链接

这里要详细说下简书的文章刷新方式...

进入简书进来后，默认刷新10-15篇文章
页面下拉框滑动，会通过Ajax刷新文章，一次刷新5篇刷新3次
之后滑动刷新失效，需要点击“阅读更多”来获取新的文章
保存刷新日志，如该文章之前回复过，则跳过访问下一篇文章

这几种场景，我们可以通过js控制滚动条滑动到底部来实现刷新文章
通过try ... except 判断是否出现阅读更多的文章来进行点击事件
通过link.text与我们之前保存的日志文件进行对比，判断新文章访问
点击链接会弹出新标签页，此处涉及标签切换、访问、关闭和主handle的返回

文章回复

本来这里没什么知识点的，但是简书做的比较溜，文章内容也是Ajax成段展示，刚进入页面无法后去到所有的内容，更没办法定位到回复栏
开始使用直接下拉到底部的方式，但这种方式依然无法获取所有内容及回复窗口
需要逐步刷新，加载所有内容后，才能显示回复栏...
for循环每次下拉500单位，最终得到文章内容的方式完成此方式
WebDriverWait（driver,totaltime,checksplit）.until（）
其实本来这里，用不到WebDriverWait的，这种一般都是在页面访问后，进行动态等待的，但咱们没这个场景就生硬的使用下吧...

设置刷新文章页数

根据想刷新的页数，来控制主页面进行多少次下拉框拖动和点击“阅读更多”...
最终结束时，将访问过的文章重新写入到日志文件中...

代码实现

由于cookie涉及到我的登陆验证，所有就在代码中隐藏了，如何获取，上篇文章说过了...
我习惯不太好，注释写的比较少，抱歉，有不清楚的可以微信问我...

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清风Python
# @Date     : 2019/7/4 02:19
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : Be_A_Famous.py


import time
import os
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException, \
    ElementNotInteractableException, TimeoutException


class FamousPerson:
    # 简书首页地址
    BaseUrl = "https://www.jianshu.com"
    # 脚本目录
    BaseDir = os.path.dirname(os.path.realpath(__file__))
    # 日志文件
    text_name = 'comment.txt'
    # 默认评论页面数
    Page = 3
    # 设置变量，定位已访问的文章数目
    ContentNo = 0

    def __init__(self):
        self.log_text = os.path.join(self.BaseDir, self.text_name)
        self.log_list = self.get_log()
        self.driver = self.init_driver()
        self.base_handle = None
        self.note_list = []

    def get_log(self):
        if os.path.exists(self.log_text):
            with open(self.log_text, 'r', encoding='utf-8') as f:
                return f.readlines()
        return []

    @staticmethod
    def init_driver():
        """
        basic option:
            set screen size
            disable info bar
        :return: driver
        """
        options = webdriver.ChromeOptions()
        options.add_argument('window-size=900,600')
        options.add_argument('disable-infobars')
        return webdriver.Chrome(options=options)

    def prepare_work(self):
        """
        1. add cookie
        2. set base handle
        """
        self.driver.get(self.BaseUrl)
        self.driver.add_cookie(cookie)
        self.driver.refresh()
        self.base_handle = self.driver.current_window_handle

    def control_scrollbar(self):
        """
        use js to control scroll down ...
        """
        _scrollTop = 0
        # 渐进下拉，避免大幅度页面偏移，导致的textarea获取失败...
        for i in range(20):
            _scrollTop += 400
            js = "var q=document.documentElement.scrollTop={}".format(_scrollTop)
            self.driver.execute_script(js)
            time.sleep(0.2)
        # 简书AJax刷新3次后，必须点击一次查看更多，才能继续刷新...
        try:
            self.driver.find_element_by_class_name('load-more').click()
        except NoSuchElementException:
            pass
        except ElementNotInteractableException:
            pass

    def add_comment(self):
        # 判断窗口并切换
        for handle in self.driver.window_handles:
            if handle != self.base_handle:
                self.driver.switch_to.window(handle)
            print("访问文章：{}".format(self.driver.title))
        # 滚动至页面底部
        self.control_scrollbar()
        try:
            WebDriverWait(self.driver, 5, 0.5).until(
                ec.presence_of_element_located((By.TAG_NAME, 'textarea')))
            self.driver.find_element_by_tag_name('textarea').send_keys(comment_info)
            self.driver.find_element_by_class_name('btn-send').click()
            print("回复成功")
        except TimeoutException:
            print("回复失败，未找到textarea，蓝瘦...")
        # 为展示效果，等待2秒，使用时可删除...
        time.sleep(1)
        self.driver.close()
        # 切换至主窗口
        self.driver.switch_to.window(self.base_handle)

    def get_content(self):
        while self.Page:
            notes = self.driver.find_elements_by_css_selector('.note-list li')
            for note in notes[self.ContentNo:]:
                try:
                    note_link = note.find_element_by_tag_name('a')
                    note_name = note_link.text + '\n'
                    if note_name in self.log_list:
                        continue
                    self.log_list.append(note_name)
                    note_link.click()
                    time.sleep(1)
                    self.add_comment()
                    self.ContentNo += 1
                except:
                    pass
            self.Page -= 1
            # 下拉刷新一次页面
            self.control_scrollbar()
        with open(self.log_text, 'w') as f:
            f.writelines(self.log_list)


def run():
    # 实例化方法
    start_test = FamousPerson()
    # add cookie set base_handle
    start_test.prepare_work()
    # 启动评论
    start_test.get_content()


if __name__ == '__main__':
    comment_info = ("为作者点赞! 小弟技术公众号 【清风Python】 刚刚创建,"
                    "欢迎大家关注,谢谢支持。")
    cookie = {
        'name': 'remember_user_token',
        'value': 'token_value'  # 练习时请自行获取，方法上篇文章写了
    }
    run()

代码执行效果

selenium实战.gif

大家看到了间隔时间太短，连续回复，会被系统禁止操作....至于间隔多久，我只是为了写文章，就不去仔细考究了....

The End

今天的selenium内容就更新到这里，算是对之前知识的一个总结，和剩余内容的一个总体概括与练习吧。
其实selenium涉及的知识还有很多，以及与它相关的一些部署、搭建、自动化报告等等功能。但因为这个系列看的人实在太少，懒得更新了啊....
先暂时告一段落吧，如果还有人催更，我在想想下来写点什么吧。
OK，如果觉得这篇文章对你有帮助，欢迎将文章或我的微信公众号【清风Python】转发分享给更多喜欢python的朋友们，谢谢。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,980评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,178评论 2赞 380
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,868评论 0赞 336
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,498评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,492评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,521评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,910评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,569评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,793评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,559评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,639评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,342评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,931评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,904评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,144评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,833评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,350评论 2赞 342