Python selenium模拟浏览器爬取信息

cgx.jpg

用python selenium模拟浏览器获取某网站信息。整个项目只有两处需要手动输入：一处是登陆时的验证码，另一处是查询条件。第一处要实现自动获取验证码并输入需要较大工程，第二处完全可以实现程序输入，这里为了简便选择手动输入。模拟过程中等待网页或者网页元素加载的过程都采用time.sleep()方法设置固定时间，当网速较慢时可以将时间调大，也可以采用selenium标准的判断加载是否成功。

为保密需要，程序中的密码已隐藏，因此直接运行此程序无法登陆系统，且主页面网址也不能直接给出，但只要换成一个有登陆界面的网址即可。程序稍作修改便可应用于其他模拟浏览器爬虫项目！完整代码如下（程序后附运行结果图片）：
（说明：文中涉及保密部分都用‘*****’代替了！）

# -*- coding: utf-8 -*-
"""
Created on Mon Aug  6 11:31:58 2018
@author: cgx
"""
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
import requests
import re
from bs4 import BeautifulSoup
import time

browser = webdriver.Chrome() #定义浏览器
def loginpage():
    loginpage_url = '此处为登陆界面url，为保密需要无法给出'
    browser.get(loginpage_url)
    element = WebDriverWait(browser, 10).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "#randCode"))) #等待网页加载时间
    browser.find_element_by_id('username').send_keys("*****") #输入账号
    browser.find_element_by_id('password').send_keys("*****") #输入密码
    time.sleep(15) #等待用户输入验证码
    browser.find_element_by_xpath('//*[@id="loginButton"]').click() #自动点击‘登陆’按钮
    time.sleep(3)
    browser.find_element_by_xpath('//*[@id="nav"]/li[3]/a').click() #自动点击‘*****’按钮
    time.sleep(3)
    browser.switch_to_frame('main_c') #转到新跳转的网页
    browser.find_element_by_xpath('//*[@id="toibcsWriter"]').click()  # 自动点击‘*****’按钮
    time.sleep(3)

    window_handles = browser.window_handles #得到所有窗口的handle
    browser.switch_to.window(window_handles[-1]) #跳转到新窗口
    time.sleep(3)
    browser.find_element_by_xpath('//*[@id="beApply"]').click()  # 自动点击‘*****’按钮
    time.sleep(10)
    browser.switch_to_frame('main')  # 转到新刷出的部分网页
    browser.find_element_by_xpath('//*[@id="mainContent"]/form/div[3]/div[13]/button[1]').click()  # 自动点击‘*****’按钮
    time.sleep(3)

    #获取列表页网页代码，得到每个个体信息
    listpage_html = browser.page_source #获取网页代码
    soup = BeautifulSoup(listpage_html,'lxml') #形成BS对象
    total_pages = soup.select('#mainContent > div.widget-box.bgc_odd > div.widget-content > div.ng-scope > table > tfoot > tr:nth-of-type(2) > td > div > ul > li:nth-of-type(1) > span > font:nth-of-type(2)')
    total_pages = int(total_pages[0].get_text())

    for page_index in range(total_pages):
        print('共：{} 页；当前第{}页！'.format(total_pages,page_index+1))
        #获取列表页网页代码，得到每个个体信息
        listpage_html = browser.page_source #获取网页代码
        soup = BeautifulSoup(listpage_html,'lxml') #形成BS对象
        # print(soup.prettify()) #格式化网页代码
        danzhenghaos = soup.select('tbody > tr > td > a[ng-click="showQuotationDetail(a.voucherNo)"]') #得到list页中每个个体信息
        for i_dzh in danzhenghaos:
            print('客户单证号：{}'.format(i_dzh.get_text().strip()))
            danzhenghao_i = i_dzh.get_text().strip()
            browser.find_element_by_partial_link_text(danzhenghao_i).send_keys(Keys.ENTER) #找到单证号链接并点击进入

            window_handles = browser.window_handles #得到所有窗口的handle
            browser.switch_to.window(window_handles[-1]) #跳转到每个个体的详情页
            detailspage_html = browser.page_source #获取每个个体详情页网页代码
            soup = BeautifulSoup(detailspage_html,'lxml') #形成BS对象
            detailspage_html = str(soup.get_text) #得到网页代码并转化为string类型

            regular_equation = r'"optionDisplay".*?"(.*?)"' #从详情页中匹配目标信息
            pattern = re.compile(regular_equation, re.S)
            results = re.findall(pattern, detailspage_html)
            if results == []: #判断匹配的结果是否为空
                print(' ！Warning: 该单号未获取到目标信息！')
                continue
            print(results[0])

            time.sleep(1)
            browser.close() #关闭当前详情页窗口
            browser.switch_to.window(window_handles[-2]) #返回到列表页
            browser.switch_to_frame('main')  # 转到框架
        time.sleep(1)
        #点击‘下一页’
        browser.find_element_by_partial_link_text('下一页').send_keys(Keys.ENTER)
        time.sleep(3) #等待下一页弹出（这个等待很重要，否则得到的网页代码依然是前面的），还可以根据待加载的页面元素是否已经出现或可点击来判断是否已加载成功

def main():
    loginpage()

if __name__ == '__main__':
    print('The spider is working now, please wait……')
    start = time.clock()
    main()
    end = time.clock()
    print ('Total running time : {} s'.format(int(end-start)))

程序执行结果：
sorrry：模拟点击网页的图片因保密需要不能给出！

最终获得的目标信息：

获得的目标信息.png

最后编辑于：2022.04.23 21:17:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,445评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,889评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,047评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,760评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,745评论 5赞 367
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,638评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,011评论 3赞 398
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,669评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,923评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,655评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,740评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,406评论 4赞 320
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,995评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,961评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,197评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,023评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,483评论 2赞 342

Python selenium模拟浏览器爬取信息

推荐阅读更多精彩内容