爬虫之selenium的学习

selenium是浏览器自动化测试框架。现在的很多网页当你获取到源码的时候,发现都是js文件,因此必须模拟人使用浏览器的操作,等js文件加载完后才能爬取到数据。selenium就是python的一个库,就是用来模拟人操作浏览器的。这里推荐用谷歌Chrome浏览器,PhantomJS已经不维护了,被弃用了。
详情请参考官网:https://selenium-python.readthedocs.io/

首先安装selenium

pip install selenium

然后下载ChromeDriver,谷歌浏览器的驱动。浏览器型号和驱动必须匹配,要不然会出错的。
谷歌浏览器驱动下载:https://npm.taobao.org/mirrors/chromedriver/
下载完你浏览器对应的驱动后,将ChromeDriver放到你python的Scripts目录下,在此目录下,当初始化的时候不需要传入路径。或者你在初始化的时候可以传入路径
注意:一般进行一个操作需要让浏览器sleep 1~5秒,等待js加载。程序员何苦彼此为难。
初始化:

#导入库
from selenium import webdriver
import time 
#初始化,驱动在python的Scripts目录下,不需要传入路径
browser = webdriver.Chrome()

也可以传入路径初始化

path = ' 你自己驱动的路径'
browser = webdriver.Chrome(executable_path = path)

谷歌特提供了无头浏览器模式,就是类似于PhantomJS的


#创建对象
chrome_options = ChromeOptions()
#headless就是谷歌的无头模式
chrome_options.add_argument('--headless')
#这里是禁用了GPU,谷歌浏览器GPU加速在虚拟机上可能导致黑屏
chrome_options.add_argument('--disable-gpu')
#如果需要使用代理
proxy =' 你的代理IP' 
chrome_options.add_argument('--proxy-server = http://' + proxy)
#传入最终的参数就行了
browser = webdriver.Chrome(options = chrome_options )

#虽然无头,但是你可以抓拍到图片,看是否启动成功
#进入后将当前网页拍照保存
browser.save_screenshot('tupian.png')
#或者
# 截取当前窗口,并指定截图图片的保存位置
driver.get_screenshot_as_file("D:\\tupian.jpg")

当前页面URL

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

访问网页

url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)

得到网页源码

print(browser.page_source)

下面的方法都可以用来获取指定的节点进行操作
注意:有的是element 有的是elements

#一、十八种定位方法

1.id定位:find_element_by_id(id_)
2.name定位:find_element_by_name(name)
3.class定位:find_element_by_class_name( name)
4.tag定位:find_element_by_tag_name(name)
5.link定位:find_element_by_link_text(link_text)
6.partial_link定位find_element_by_partial_link_text(link_text)
7.xpath定位:find_element_by_xpath( xpath)
8.css定位:find_element_by_css_selector( css_selector)

#这八种是复数形式,返回的列表形式
9.id复数定位find_elements_by_id(id_)
10.name复数定位find_elements_by_name(name)
11.class复数定位find_elements_by_class_name( name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(text)
14.partial_link复数定位find_elements_by_partial_link_text(link_text)
15.xpath复数定位find_elements_by_xpath(xpath)
16.css复数定位find_elements_by_css_selector(css_selector

这两种就是快失传了的
find_element( by='id', value=None)
find_elements(by='id', value=None)

使用示例:

my_input = find_element_by_id('kw')
my_input = find_elements_by_css_seletor('#qq')
my_input =find_elements_by_xpath('//div[@class = "q"]/input')

操作输入框和按钮:

send_keys():给输入框输入文字
clear():清空
click():点击按钮
submit()方法用于提交表单。 例如, 在搜索框输入关键字之后的“回车” 操作, 就可以通过该方法模拟。
使用示例:

#初始化在前边,这里不再写
#这里模拟百度输入框搜索中国
url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)
first_input = browser.find_element_by_id('kw')
#先清空,再输入
first_input.clear()
first_input.semd_keys('中国')
#取第一个
button = browser.find_elements_by_class_name('s_tbn')[0]
#点击搜索
button.click()
time.sleep(2)
#退出,close是关闭单个窗口
browser.quit()

执行JS:

browser.execute_script('alert(" 真香")')
#滑动滚动条
 js=' document.body.scrollTop = 10000'
browser.execute_script(js)

获取节点的一切

top = browser.find_element_by_id('top')
#获取top节点的class
top.get_attribute('class')
#获取top节点的文本
top.text
#获取节点id
top.id
#获取节点位置
top.location
#获取节点标签名
top.tag_name
#获取节点大小
top.size

切换Frame

#切换到子franme
browser.switch_to.frame('iframeResult')
#切换回父级
browser.switch_to.parent_frame()

延时等待

#隐式等待
browser.implicitly_wait(10)
implicitly_wait() 默认参数的单位为秒,它并不影响脚本的执行速度。
其次,它并不针对页面上的某一元素进行等待。
当脚本执行到某个元素定位时,如果元素可以定位,则继续执行;
如果元素定位不到,则它将以轮询的方式不断地判断元素是否被定位到。
假设在第6秒定位到了元素则继续执行,若直到超出设置时长(10秒)还没有定位到元素,则抛出异常。
#显示等待
#需要导入文件
from selenium.webdriver.commom.by import By
from selenium.webdriver.support.ui  import WebDriverWait
from selenium.webdriver.support  import expected_conditions as EC

#这里是设置最长等待时间,如果超过这个时间抛出异常
wait  = WebDriverWait(browser,10)
#设置等待,一直等到id = 'p'元素加载出来,这里的参数是元组
input = wait.until(EC.presence_of_element_located((By.ID,'q')))
#除了By.ID 还可以选择一下参数:
#CLASS_NAME
#ID
#CSS_SELECTOR
#LINK_TEXT
#NAME
#PARTIAL_LINK_TEXT
#TAG_NAME
#XPATH
#一直等待CSS选择器选中按钮成为可点击的出来
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))

前进和后退

browser.get(url_1)
browser.get(url_2)
browser.get(url_3)
#后退到第二个网页
browser.back()
#前进到第三个网页
browser.forward()

对于cookie的操作

#添加cookie
browser.add_cookie({'name':'mgh','value':'haha'})
#得到cookie
browser.get_cookies()
# 删除特定(部分)的cookie
delete_cookie(name)
#删除cookies
browser.delete_all_cookies()

对于选项卡的操作

current_window_handle 获得当前窗口
window_handles 获得所有窗口

browser.get(url_1)
#打开一个选项卡
broswer.execute_script('window.open()')
#将句柄转到打开选项卡
browser.switch_to_window(browser.window_handles[1])
#请求
browser.get(url_2)
time.sleep(1)
#又转回第一个选项卡
browser.switch_to_window(browser.window_handles[0])
#请求
browser.get(url_3)

查找当前元素的兄弟级元素

#..代表当前元素的父节点
driver.find_element_by_xpath("//div[@id='id']/../div[1]").text

异常处理

try:
  pass
except TimeoutException:
  pass
except NoSuchElementException:
  pass
finally:
  pass

刷新

browser.refresh()

浏览器窗口

browser.maximize_window() #将浏览器最大化显示
browser.set_window_size(480, 800)#设置浏览器窗口宽480,高800

模拟键盘操作

from selenium.webdriver.common.keys import Keys
#键盘tab键
driver.find_element_by_id("user_name").send_keys(Keys.TAB)
#键盘enter键
driver.find_element_by_id("user_pwd").send_keys(Keys.ENTER)
#键盘Ctrl +A 全选
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
#键盘Ctrl +X 剪切
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
# ctrl+v 粘贴内容到输入框
driver.find_element_by_id("kw").send_keys(Keys.CONTROL, 'v')

模拟鼠标操作

ActionChains 类
perform(): 执行所有 ActionChains 中存储的行为;
context_click() 右击
double_click() 双击
drag_and_drop() 拖动
move_to_element(): 鼠标悬停。
#示例:
from selenium.webdriver.common.action_chains import ActionChains
chain = ActionChains(driver)
implement =driver.find_element_by_xpath("/html/body/div/")
chain.context_click(implement).perform()

#定位到要双击的元素
qqq =driver.find_element_by_xpath("xxx")
#对定位到的元素执行鼠标双击操作
ActionChains(driver).double_click(qqq).perform()


#定位元素的原位置
element = driver.find_element_by_name("source")
#定位元素要移动到的目标位置
target = driver.find_element_by_name("target")
#执行元素的移动操作
ActionChains(driver).drag_and_drop(element, target).perform()

#在父亲元件下找到link 为Action 的子元素
menu = dr.find_element_by_id('dropdown1').find_element_by_link_text('Action')
#鼠标定位到子元素上
webdriver.ActionChains(dr).move_to_element(menu).perform()

上传文件

#就是把send-keys()的参数换成文件路径
#定位上传按钮,添加本地文件
path = r'D:\\selenium_use_case\upload_file.txt'
driver.find_element_by_name("file").send_keys(path)

下拉框

需要两次定位,首先定位下拉框,然后定位选中的元素
WebDriver提供了Select类来处理下拉框。 如百度搜索设置的下拉框

from selenium.webdriver.support.select import Select
driver.get('http://www.baidu.com')

# 鼠标悬停至“设置”链接
driver.find_element_by_link_text('设置').click()
sleep(1)
# 打开搜索设置
driver.find_element_by_link_text("搜索设置").click()
sleep(2)

# 搜索结果显示条数
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50')  # 显示50条

弹窗

#接受警告信息
alert = driver.switch_to_alert()
alert.accept()
#得到文本信息打印
alert = driver.switch_to_alert()
print alert.text()
#取消对话框(如果有的话)
alert = driver.switch_to_alert()
alert.dismiss()
#输入值
alert = driver.switch_to_alert()
alert.send_keys(“xxx”)

出现的一些问题记录:

selenium 获取不了标签文本的解决方法:

首先查看标签是否被隐藏:

 browser.find_element_by_xx('//div[@class= "mm"]').is_displayed()  

如果输出为false,则说明标签的元素被隐藏了,需要采用另外 一种方法获取到文本标签:

# 用innerHTML 会返回元素的内部 HTML, 包含所有的HTML标签。就是找到的元素包含的所有内容。
driver.find_element_by_xpath().get_attribute('innerHTML ')
#用textContent  只会得到文本内容,而不会包含 HTML 标签。
driver.find_element_by_xpath().get_attribute('textContent ')

显示元素是不可点击的错误,即你的click()函数不起作用

使用WebDriver点击界面上Button元素时,如果当前Button元素被界面上其他元素遮住了,
或没出现在界面中(比如Button在页面底部,但是屏幕只能显示页面上半部分),
使用默认的WebElement.Click()可能会触发不了Click事件。
需加上browser.execute_script(‘arguments[0].click()’, webElement);

element = browser.find_element_by_xpath('//div[@class="gcxxfy"]//div[@class="mmggxlh"]/a[last()]')
browser.execute_script("arguments[0].click();", element)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345