selenium是浏览器自动化测试框架。现在的很多网页当你获取到源码的时候，发现都是js文件，因此必须模拟人使用浏览器的操作，等js文件加载完后才能爬取到数据。selenium就是python的一个库，就是用来模拟人操作浏览器的。这里推荐用谷歌Chrome浏览器，PhantomJS已经不维护了，被弃用了。
详情请参考官网：https://selenium-python.readthedocs.io/

首先安装selenium

pip install selenium

然后下载ChromeDriver，谷歌浏览器的驱动。浏览器型号和驱动必须匹配，要不然会出错的。
谷歌浏览器驱动下载：https://npm.taobao.org/mirrors/chromedriver/
下载完你浏览器对应的驱动后，将ChromeDriver放到你python的Scripts目录下，在此目录下，当初始化的时候不需要传入路径。或者你在初始化的时候可以传入路径
注意：一般进行一个操作需要让浏览器sleep 1~5秒，等待js加载。程序员何苦彼此为难。
初始化：

#导入库
from selenium import webdriver
import time 
#初始化,驱动在python的Scripts目录下，不需要传入路径
browser = webdriver.Chrome()

也可以传入路径初始化

path = ' 你自己驱动的路径'
browser = webdriver.Chrome(executable_path = path)

谷歌特提供了无头浏览器模式，就是类似于PhantomJS的


#创建对象
chrome_options = ChromeOptions()
#headless就是谷歌的无头模式
chrome_options.add_argument('--headless')
#这里是禁用了GPU，谷歌浏览器GPU加速在虚拟机上可能导致黑屏
chrome_options.add_argument('--disable-gpu')
#如果需要使用代理
proxy =' 你的代理IP' 
chrome_options.add_argument('--proxy-server = http://' + proxy)
#传入最终的参数就行了
browser = webdriver.Chrome(options = chrome_options )

#虽然无头，但是你可以抓拍到图片，看是否启动成功
#进入后将当前网页拍照保存
browser.save_screenshot('tupian.png')
#或者
# 截取当前窗口，并指定截图图片的保存位置
driver.get_screenshot_as_file("D:\\tupian.jpg")

当前页面URL

# 打印当前页面URL
now_url = driver.current_url
print(now_url)

访问网页

url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)

得到网页源码

print(browser.page_source)

下面的方法都可以用来获取指定的节点进行操作
注意：有的是element 有的是elements

#一、十八种定位方法

1.id定位：find_element_by_id(id_)
2.name定位：find_element_by_name(name)
3.class定位：find_element_by_class_name( name)
4.tag定位：find_element_by_tag_name(name)
5.link定位：find_element_by_link_text(link_text)
6.partial_link定位find_element_by_partial_link_text(link_text)
7.xpath定位：find_element_by_xpath( xpath)
8.css定位：find_element_by_css_selector( css_selector）

#这八种是复数形式，返回的列表形式
9.id复数定位find_elements_by_id(id_)
10.name复数定位find_elements_by_name(name)
11.class复数定位find_elements_by_class_name( name)
12.tag复数定位find_elements_by_tag_name(self, name)
13.link复数定位find_elements_by_link_text(text)
14.partial_link复数定位find_elements_by_partial_link_text(link_text)
15.xpath复数定位find_elements_by_xpath(xpath)
16.css复数定位find_elements_by_css_selector(css_selector

这两种就是快失传了的
find_element( by='id', value=None)
find_elements(by='id', value=None)

使用示例：

my_input = find_element_by_id('kw')
my_input = find_elements_by_css_seletor('#qq')
my_input =find_elements_by_xpath('//div[@class = "q"]/input')

操作输入框和按钮：

send_keys():给输入框输入文字
clear()：清空
click():点击按钮
submit()方法用于提交表单。例如，在搜索框输入关键字之后的“回车” 操作，就可以通过该方法模拟。
使用示例：

#初始化在前边，这里不再写
#这里模拟百度输入框搜索中国
url = 'http://www.baidu.com'
browser.get(url)
time.sleep(2)
first_input = browser.find_element_by_id('kw')
#先清空，再输入
first_input.clear()
first_input.semd_keys('中国')
#取第一个
button = browser.find_elements_by_class_name('s_tbn')[0]
#点击搜索
button.click()
time.sleep(2)
#退出，close是关闭单个窗口
browser.quit()

执行JS：

browser.execute_script('alert(" 真香")')
#滑动滚动条
 js=' document.body.scrollTop = 10000'
browser.execute_script(js)

获取节点的一切

top = browser.find_element_by_id('top')
#获取top节点的class
top.get_attribute('class')
#获取top节点的文本
top.text
#获取节点id
top.id
#获取节点位置
top.location
#获取节点标签名
top.tag_name
#获取节点大小
top.size

切换Frame

#切换到子franme
browser.switch_to.frame('iframeResult')
#切换回父级
browser.switch_to.parent_frame()

延时等待

#隐式等待
browser.implicitly_wait(10)
implicitly_wait() 默认参数的单位为秒,它并不影响脚本的执行速度。
其次，它并不针对页面上的某一元素进行等待。
当脚本执行到某个元素定位时，如果元素可以定位，则继续执行；
如果元素定位不到，则它将以轮询的方式不断地判断元素是否被定位到。
假设在第6秒定位到了元素则继续执行，若直到超出设置时长（10秒）还没有定位到元素，则抛出异常。
#显示等待
#需要导入文件
from selenium.webdriver.commom.by import By
from selenium.webdriver.support.ui  import WebDriverWait
from selenium.webdriver.support  import expected_conditions as EC

#这里是设置最长等待时间，如果超过这个时间抛出异常
wait  = WebDriverWait(browser,10)
#设置等待，一直等到id = 'p'元素加载出来,这里的参数是元组
input = wait.until(EC.presence_of_element_located((By.ID,'q')))
#除了By.ID 还可以选择一下参数：
#CLASS_NAME
#ID
#CSS_SELECTOR
#LINK_TEXT
#NAME
#PARTIAL_LINK_TEXT
#TAG_NAME
#XPATH
#一直等待CSS选择器选中按钮成为可点击的出来
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'.btn-search')))

前进和后退

browser.get(url_1)
browser.get(url_2)
browser.get(url_3)
#后退到第二个网页
browser.back()
#前进到第三个网页
browser.forward()

对于cookie的操作

#添加cookie
browser.add_cookie({'name':'mgh','value':'haha'})
#得到cookie
browser.get_cookies()
# 删除特定(部分)的cookie
delete_cookie(name)
#删除cookies
browser.delete_all_cookies()

对于选项卡的操作

current_window_handle 获得当前窗口
window_handles 获得所有窗口

browser.get(url_1)
#打开一个选项卡
broswer.execute_script('window.open()')
#将句柄转到打开选项卡
browser.switch_to_window(browser.window_handles[1])
#请求
browser.get(url_2)
time.sleep(1)
#又转回第一个选项卡
browser.switch_to_window(browser.window_handles[0])
#请求
browser.get(url_3)

查找当前元素的兄弟级元素

#..代表当前元素的父节点
driver.find_element_by_xpath("//div[@id='id']/../div[1]").text

异常处理

try:
  pass
except TimeoutException:
  pass
except NoSuchElementException:
  pass
finally:
  pass

刷新

browser.refresh()

浏览器窗口

browser.maximize_window() #将浏览器最大化显示
browser.set_window_size(480, 800)#设置浏览器窗口宽480，高800

模拟键盘操作

from selenium.webdriver.common.keys import Keys
#键盘tab键
driver.find_element_by_id("user_name").send_keys(Keys.TAB)
#键盘enter键
driver.find_element_by_id("user_pwd").send_keys(Keys.ENTER)
#键盘Ctrl +A 全选
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'a')
#键盘Ctrl +X 剪切
driver.find_element_by_id("kw").send_keys(Keys.CONTROL,'x')
# ctrl+v 粘贴内容到输入框
driver.find_element_by_id("kw").send_keys(Keys.CONTROL, 'v')

模拟鼠标操作

ActionChains 类
perform()： 执行所有 ActionChains 中存储的行为；
context_click() 右击
double_click() 双击
drag_and_drop() 拖动
move_to_element()： 鼠标悬停。
#示例：
from selenium.webdriver.common.action_chains import ActionChains
chain = ActionChains(driver)
implement =driver.find_element_by_xpath("/html/body/div/")
chain.context_click(implement).perform()

#定位到要双击的元素
qqq =driver.find_element_by_xpath("xxx")
#对定位到的元素执行鼠标双击操作
ActionChains(driver).double_click(qqq).perform()


#定位元素的原位置
element = driver.find_element_by_name("source")
#定位元素要移动到的目标位置
target = driver.find_element_by_name("target")
#执行元素的移动操作
ActionChains(driver).drag_and_drop(element, target).perform()

#在父亲元件下找到link 为Action 的子元素
menu = dr.find_element_by_id('dropdown1').find_element_by_link_text('Action')
#鼠标定位到子元素上
webdriver.ActionChains(dr).move_to_element(menu).perform()

上传文件

#就是把send-keys()的参数换成文件路径
#定位上传按钮，添加本地文件
path = r'D:\\selenium_use_case\upload_file.txt'
driver.find_element_by_name("file").send_keys(path)

下拉框

需要两次定位，首先定位下拉框，然后定位选中的元素
WebDriver提供了Select类来处理下拉框。如百度搜索设置的下拉框

from selenium.webdriver.support.select import Select
driver.get('http://www.baidu.com')

# 鼠标悬停至“设置”链接
driver.find_element_by_link_text('设置').click()
sleep(1)
# 打开搜索设置
driver.find_element_by_link_text("搜索设置").click()
sleep(2)

# 搜索结果显示条数
sel = driver.find_element_by_xpath("//select[@id='nr']")
Select(sel).select_by_value('50')  # 显示50条

弹窗

#接受警告信息
alert = driver.switch_to_alert()
alert.accept()
#得到文本信息打印
alert = driver.switch_to_alert()
print alert.text()
#取消对话框（如果有的话）
alert = driver.switch_to_alert()
alert.dismiss()
#输入值
alert = driver.switch_to_alert()
alert.send_keys(“xxx”)

出现的一些问题记录：

selenium 获取不了标签文本的解决方法：

首先查看标签是否被隐藏：

 browser.find_element_by_xx('//div[@class= "mm"]').is_displayed()

如果输出为false，则说明标签的元素被隐藏了，需要采用另外一种方法获取到文本标签：

# 用innerHTML 会返回元素的内部 HTML， 包含所有的HTML标签。就是找到的元素包含的所有内容。
driver.find_element_by_xpath().get_attribute('innerHTML ')
#用textContent  只会得到文本内容，而不会包含 HTML 标签。
driver.find_element_by_xpath().get_attribute('textContent ')

显示元素是不可点击的错误,即你的click()函数不起作用

使用WebDriver点击界面上Button元素时，如果当前Button元素被界面上其他元素遮住了，
或没出现在界面中（比如Button在页面底部，但是屏幕只能显示页面上半部分），
使用默认的WebElement.Click()可能会触发不了Click事件。
需加上browser.execute_script(‘arguments[0].click()’, webElement);

element = browser.find_element_by_xpath('//div[@class="gcxxfy"]//div[@class="mmggxlh"]/a[last()]')
browser.execute_script("arguments[0].click();", element)

爬虫之selenium的学习