title: 关于Xpath地址的分析小结
date: 2016-09-19 20:20:28
tags:
简介: 发现有时候遇到xpath的路径报错,然而使用的都是一些插件工具,但不同浏览器和不同插件得到的xpath又有所差别,故做一个测试记录
1、旁引: 因故装python 3 +2 的双蛇系统,是故再次要把anaconda配置到python 2 去然后搜网址的时候,看到一个评论,喜感,记录如下:
问:anaconda与python什么关系
答复:
python 是莽蛇,一般是陆上蛇
Anaconda 是美洲大水蛇。
是不是可以写一部: 水与火之歌 :)
2、以豆瓣网电影板块的“热门”按键为例,如图:
在chrome里的xpath是:
//*[@id="gaia_frm"]/div[1]/div[1]/label[1]
在firefox 的firebug插件::
/html/body/div[3]/div[1]/div/div[2]/div[4]/div[2]/div[1]/form/div[1]/div[1]/label[1]
而firexfox的xpath checker插件则是:
id('gaia_frm')/x:div[1]/x:div[1]/x:label[1]
又测试QQ浏览器为:
//*[@id="gaia_frm"]/div[1]/div[1]/label[1]
可以发现,谷歌和qq浏览器的格式一致,但firefox的插件,则不尽相同,但最起码,倒过来看,还是基本相同,这其实是路径开头选择差异导致的,而到路径最后基本都一样,这可以理解为绝对路径和相对路径,前者最开始一个斜杠,后者2个斜杠。那即便后面就肯定一样?但还要看“后面”的层级定义,即便到达最后一级的标签,采用的是什么属性定位,比如通过id,通过name等的区别。
-
其中,firefox的xpath checker插件显示的比较特别,带有X: 字样,估计是该插件自定义的xpath格式,但如果直接复制到python里,是不识别的,因此会报错。所以,如果要采用他的格式,需要把x: 给删掉。测试就通过了。也就是要修改成:
driver.find_element_by_xpath("id('gaia_frm')/div[1]/div[1]/label[1]")
-
谷歌和qq的一样,只需要测试一个,结论直接通过:
driver.find_element_by_xpath("//*[@id="gaia_frm"]/div[1]/div[1]/label[1]")
-
firebug的,结论通过:
driver.find_element_by_xpath("/html/body/div[3]/div[1]/div/div[2]/div[4]/div[2]/div[1]/form/div[1]/div[1]/label[1]"
结论:
- 谷歌和qq浏览器自带的xpath路径分析,可通过常规需求的测试(由于有隐藏元素的一些网页功能,遇到的话依然可能失败,还有就是动态刷新技术)
- 由于我安装的firefox没看到自带的xpath分析功能,所以安装了firebug插件以及xpath checker插件,但xpath checker插件自带的格式却得不到浏览器的支持,需要特别注意。
- xpath checker在反向验证xpath路径的时候还是有用。
关于最后一点展开下,也是经验总结:
比如,你看别人的代码分析,因为你不确定他是使用浏览器自带的,还是自己定义的,还是插件的xpath路径,甚至可能对方根本没有任何注释,导致你看到xpath路径的时候,一头的晕,丫到底写的是啥呀?也许聪明的你会说,那可以到网页源代码查找一部分的关键词,确实可以,但也麻烦,举例来说:
driver_item.find_element_by_xpath("//div[@class='list-wp']/a[@class='more']").click()
虽然可以知道要点击一个含有class='more'的控件元素,但你会发现直接网页源代码木有!! 为何? 因为他的真实是双引号class="more"
原来,因为selenium 的find_element_by_xpath("XXX") 命令,如果你把XXX用class="more"直接代替,绝对的报错,为何,因为双引号冲突, 你可以反斜杠来区分,抑或用单引号,这就是原因所在。可见,即便你到网页源代码查找还是麻烦的很,更不要说,如果万一源代码里有好几个这样的查找单元了。
而我们用,xpath checker反向验证,可以很快的让你知道,对方分析的是什么元素,如下图: