传统的基于元素定位的UI自动化在断言的时候都存在一个缺陷,无法像人眼一样判断页面的显示效果,虽然也可以通过文本+css+布局等方式,设置多个断言的方式来综合判断,但不够优雅和直观。如果有某种技术可以像人眼一样在图片中查找和定位图片的位置再结合操作系统级别的操作(鼠标,键盘,触摸等等),那就可以近乎于模拟人工操作软件实现自动化。
aircv实现了在图片中查找图片,并可以返回查找图片相对于源图片的位置,如果源图片是全屏截图,那意味着其返回的坐标位置就是屏幕的实际坐标,再结合pyautogui可以在坐标位置进行鼠标操作,在光标位置输入文本等操作,就可以实现一下UI自动化的场景。实践代码如下:
需要登录的界面(部分截图)
账号(user.png)截图:
输入框在账号下面大约45个像素,因此先定位的账号的位置,再加一个y偏移量
密码输入框采取类似的定位策略
密码(pwd.png)
登录按钮(login_button.png)
代码如下:
import aircv
import pyautogui
import time
def screen(x=1920, y=1080):
"""
屏幕截图
:param x: 横坐标
:param y: 纵坐标
:return:
"""
pyautogui.screenshot('screen.png', region=(0, 0, x, y))
return 'screen.png'
def click_element(src_image, dst_image, offset_x=0, offset_y=0):
"""
基于图像查找点击
:param src_image:
:param dst_image:
:param offset_x:
:param offset_y:
:return:
"""
src_image = aircv.imread(src_image)
dst_image = aircv.imread(dst_image)
result = aircv.find_template(src_image, dst_image)
# {'result': (828.0, 597.5), 'rectangle': ((804, 582), (804, 613), (852, 582), (852, 613)), 'confidence': 1.0}
x, y = result.get('result')
if result.get('confidence') > 0.85:
pyautogui.click(x + offset_x, y + offset_y)
def input_text_pos(x, y, text):
"""
在坐标处输入文本
:param x:
:param y:
:param text:
:return:
"""
pyautogui.click(x, y)
pyautogui.write(text)
def input_text_image(dst_image, text, offset_x=0, offset_y=0):
src_image = screen()
click_element(src_image, dst_image, offset_x, offset_y)
pyautogui.write(text)
if __name__ == "__main__":
# 基于图像查找图片后点击偏移位置,并输入
input_text_image('user.png', 'abc', offset_y=45)
input_text_image('pwd.png', 'abc', offset_y=45)
# 点击登录
click_element(screen(), 'login_button.png')
定位的关键代码是
src_image = aircv.imread(src_image) # 源图片的路径
dst_image = aircv.imread(dst_image) #目标图片的路径
result = aircv.find_template(src_image, dst_image) # 返回的查找结果
# {'result': (828.0, 597.5), 'rectangle': ((804, 582), (804, 613), (852, 582), (852, 613)), 'confidence': 1.0}
# confidence 相似度大于0.85时可以认为查找正确,根据需要做调整。result 目标中心点的坐标,rectangle 目标匹配的四个顶点的坐标
获取到位置后调用pyautogui.click(x,y)进行点击,在输入框取得焦点后调用write()方法输入文本