selenium跳过webdriver检测并爬取天猫商品数据

@TOC

简介

现在爬取淘宝,天猫商品数据都是需要首先进行登录的。上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝。把关键点放在如何爬取天猫商品数据上。

过去我曾经使用get/post方式进行爬虫,同时也加入IP代理池进行跳过检验,但随着大型网站的升级,采取该策略比较难实现了。因为你使用get/post方式进行爬取数据,会提示需要登录,而登录又是一大难题,需要滑动验证码验证。当你想使用IP代理池进行跳过检验时,发现登录时需要手机短信验证码验证,由此可以知道旧的全自动爬取数据对于大型网站比较困难了(小型网站可以使用get/post,没检测或者检测系数较低)。

selenium是一款优秀的WEB自动化测试工具,所以现在采用selenium进行半自动化爬取数据。

编写思路

由于现在大型网站对selenium工具进行检测,若检测到selenium,则判定为机器人,访问被拒绝。所以第一步是要防止被检测出为机器人,如何防止被检测到呢?当使用selenium进行自动化操作时,在chrome浏览器中的consloe中输入windows.navigator.webdriver会发现结果为Ture,而正常使用浏览器的时候该值为False。所以我们将windows.navigator.webdriver进行屏蔽。
在代码中添加:

        options = webdriver.ChromeOptions()
        # 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Selenium
        options.add_experimental_option('excludeSwitches', ['enable-automation']) 
        self.browser = webdriver.Chrome(executable_path=chromedriver_path, options=options)

同时,为了加快爬取速度,我们将浏览器模式设置为不加载图片,在代码中添加:

        options = webdriver.ChromeOptions()
        # 不加载图片,加快访问速度
        options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) 

同时,为了模拟人工操作,我们在浏览网页的时候,模拟下滑,插入代码:

    # 模拟向下滑动浏览
    def swipe_down(self,second):
        for i in range(int(second/0.1)):
            js = "var q=document.documentElement.scrollTop=" + str(300+200*i)
            self.browser.execute_script(js)
            sleep(0.1)
        js = "var q=document.documentElement.scrollTop=100000"
        self.browser.execute_script(js)
        sleep(0.2)

至此,关键的步骤我们已经懂了,剩下的就是编写代码的事情了。在给定的例子中,需要你对html、css有一定了解。
比如存在以下代码:

        self.browser.find_element_by_xpath('//*[@class="btn_tip"]/a/span').click()
        taobao_name = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.site-nav-bd > ul.site-nav-bd-l > li#J_SiteNavLogin > div.site-nav-menu-hd > div.site-nav-user > a.site-nav-login-info-nick ')))
        print(taobao_name.text)

第1行代码指的是从根目录(//)开始寻找任意(*)一个class名为btn_tip的元素,并找到btn_tip的子元素a标签中的子元素span

第2行代码指的是等待某个CSS元素出现,否则代码停留在这里一直检测。以.开头的在CSS中表示类名(class),以#开头的在CSS中表示ID名(id)。A > B,指的是A的子元素B。所以这行代码可以理解为寻找A的子元素B的子元素C的子元素D的子元素E出现,否则一直在这里检测。

第3行代码指的是打印某个元素的文本内容

看完上面的代码,我们大概了解了selenium中html、css的基本规则。我们来实践一下,在搜索商品的时候如何检测一共有多少页呢?不妨看看以下代码:

        # 等待该页面全部商品数据加载完毕
        good_total = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#J_ItemList > div.product > div.product-iWrap')))

        # 等待该页面input输入框加载完毕
        input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo')))

        # 获取当前页
        now_page = input.get_attribute('value')
        print("当前页数" + now_page + ",总共页数" + page_total)

打开chrome中的控制台,转向console。点击console面板中的十字指针,移动到网页中的“共31页,到第1页”,然后点击。你就可以看到该元素的class名为ui-page-skipTo,由于在css中,class用.表示,所以代码为.ui-page-skipTo。

同时由于他的类型是input输入框,变成input.ui-page-skipTo。那么是否可以把代码直接写成.ui-page-skipTo呢?答案是不一定,如果这个元素在网页中是唯一的,没有其他的input的名字也叫ui-page-skipTo的话,就可以。

所以,为了保证代码健壮性,我们从他的父元素一直查找,直到我们觉得那个父元素是唯一的,那么这样查找到的元素就是唯一的了。所以最终查找到的结果为.ui-page > div.ui-page-wrap > b.ui-page-skip > form > input.ui-page-skipTo

最后,我们获取这个Input的值,代码为input.get_attribute('value')

在获取商品数据中,存在以下代码:

        # 获取本页面源代码
        html = self.browser.page_source

        # pq模块解析网页源代码
        doc = pq(html)

        # 存储天猫商品数据
        good_items = doc('#J_ItemList .product').items()

        # 遍历该页的所有商品
        for item in good_items:
            good_title = item.find('.productTitle').text().replace('\n',"").replace('\r',"")
            good_status = item.find('.productStatus').text().replace(" ","").replace("笔","").replace('\n',"").replace('\r',"")
            good_price = item.find('.productPrice').text().replace("¥", "").replace(" ", "").replace('\n', "").replace('\r', "")
            good_url = item.find('.productImg').attr('href')
            print(good_title + "   " + good_status + "   " + good_price + "   " + good_url + '\n')

首先,我们获取本页面的源代码html = self.browser.page_source,然后用pq模块对源代码进行格式化解析doc = pq(html),通过上面的讲解,我们已经学会了如何分析css元素了。你会发现有一个DIV元素包含着所有商品元素,他的ID(不是class哦)为J_ItemList,所以代码为#J_ItemList,由于我们要获取的是每一个商品,所以代码为#J_ItemList .product,这样就可以获取所有class名为product的元素啦。

接着对每个商品元素进行分析,后面的就不必详细说了。replace函数是对文本进行一些基本替换。

使用教程

  1. 点击这里下载下载chrome浏览器
  2. 查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动
  3. pip安装下列包
    • [x] pip install selenium
  4. 点击这里登录微博,并通过微博绑定淘宝账号密码
  5. 在main中填写chromedriver的绝对路径
  6. 在main中填写微博账号密码

    #改成你的chromedriver的完整路径地址
    chromedriver_path = "/Users/bird/Desktop/chromedriver.exe" 
    #改成你的微博账号
    weibo_username = "改成你的微博账号"
    #改成你的微博密码
    weibo_password = "改成你的微博密码"
    

演示图片



爬虫过程图片查看不了点击这里
爬虫结果图片查看不了点击这里

源代码

项目源代码在GitHub仓库

项目持续更新,欢迎您star本项目

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,980评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,178评论 2 380
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,868评论 0 336
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,498评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,492评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,521评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,910评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,569评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,793评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,559评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,639评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,342评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,931评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,904评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,144评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,833评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,350评论 2 342

推荐阅读更多精彩内容

  • 许久未见的雪,似期待了好久却未见的情人一样,终于从天而降,激吻着塞外这片冰冷而又死气沉沉的大地。 坐在办公室,隔着...
    我行我素_Love阅读 434评论 2 4
  • Where there is a demand, there is a supply. The one who s...
    坚冰至_Monsol阅读 798评论 0 50