python selenium模块实现自动选课

事情缘由还得从那天下午的课说起。当时大家都在认真听课。突然,旁边一哥们说他抢到了“高级数理逻辑”了,what???“高级数理逻辑”?就是那门课水易过的神课?可是明明选课系统刚开始1分钟不到就没了呀。于是,就问了他是怎么搞到的。他说是运行了几行JavaScript脚本,自动刷课的。我恍然大悟,原来你们都是这么选课的啊!于是就考虑要不自己也搞个脚本?事不宜迟,课后就开搞!

具体怎么操作呢?我最开始的想法是调出Chrome控制台,写好JavaScript代码,然后准备循环刷新运行。但老是报错“no such element”,以前没怎么用过JavaScript,以为跳转到不同的页面之后,原页面上的代码就不能用了,所以会出现找不到元素的错误。现在回过头来看,原来是由于该元素在另外一个frame中里面,必须先移动到另外一个frame,才能找到对应的元素,所以才会报这个错。有时间搞个JS版的脚本。

不管怎么样,直接在控制台执行JavaScript的想法在当时看来是不行了。这时我想到了假期实习时曾用python selenium库试着爬取微博用户的头像,这个库能实现摸拟浏览器运行,不需要分析各种表单提交参数,就能读到动态网页的所有信息,实在是爬动态网页的首选,缺点是速度比较慢。后来,因为新浪PC站的反爬虫相对严格,最终还是用了requests库加上cookie参数爬微博移动站。如果要爬取社交网站的数据的话,其对应的静态的移动站是比较靠谱的选择。

最终决定选择用python,结合selenium库实现自动选课。
正式进入今天的主题。

环境配置

  1. 安装python3,再安装selenium库,直接pip install selenium就行。
  2. 下载chromedriver驱动,也可以选择没有界面的phantomJS浏览器,为了方便调试,也不追求速度,我选择了有界面的chrome浏览器。
  3. 引入Chrome浏览器
    chromedriver = "E:\LabProjects\crwalChinaZ\chromedriver"
    os.environ['webdriver.chrome.driver'] = chromedriver
    driver = webdriver.Chrome(chromedriver)

用上面这种方式启动Chrome不用设置环境变量,只需要给出chromedriver的本地文件路径即可。然后程序就会打开不带任何配置的纯净的chrome浏览器(可以给webdriver.Chrome()函数传入配置参数,比如插件,这样浏览器就会带上相应的插件)。
执行 driver.get('http://yjxt.bupt.edu.cn/') 打开选课网站,此时运行效果如下

登录界面

填充表单

现在已经成功打开了教务处的网站,下一步输入账户密码,实现登录。

首先定位账户密码表单的位置,传入自己的账号和密码。driver.get(url)用于打开一个网页,但由于现在的大多数的Web应用程序使用Ajax技术,当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载。而driver.get(url)并不保证web页面所有元素加载完成后再返回。对于这样的情况,官网给的建议是显式或隐式地等待一段时间。用driver.implicitly_wait(seconds)实现隐式等待,WebDriverWait()(下面会提到)实现隐式等待。根据函数单词意思,“隐式等待”很容易理解,就相当于sleep一段时间,那显式等待WebDriverWait()怎么理解呢?我们先看该函数的一个使用示例:

try:
    CourseManagement = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.ID, 'menu')))
except Exception as e:
    print(e)

以上代码表示最多等待浏览器20秒,或直到ID为“menu”的节点出现为止,如果元素出现,则将这个节点赋给了CourseManagement,如果超时了则报错。结合函数的字面意思也很好理解。具体各个参数的意义详见selenium中文文档

待页面元素都加载完成后,需在网页的源码中找到账户密码表单元素的位置。注意,必须通过“更多工具-》开发者平台”或直接“右键-》检查”,而不能通过“右键-》查看网页源代码”来获得查看页面的源代码,这两者的内容是不同的,前者包含了静态和动态加载的源码,后者只有静态的源码,没有我们所需要的表单元素。

selenium提供了很多定位元素的方法,常用的有find_element_by_idfind_element_by_namefind_element_by_xpath。官网提供了更多定位元素的方法,详见selenium中文文档。如何确定元素的xpath路径,一直是件让人头疼的事。有个小技巧很有用,在开发者平台上找到要找的页面元素,然后“右键-》copy-》copy xpath”,这样该元素的xpath路劲就复制到粘贴板上了,直接粘贴即可,非常好用!找到表单的代码如下:

driver.implicitly_wait(3)
# driver.maximize_window()
account = driver.find_element_by_id("username")
passwd = driver.find_element_by_id('password')

确定表单之后,需要填充表单,这里使用send_keys方法,分别传入你的账户和密码填充表单。

account.send_keys(config.account)
passwd.send_keys(config.password)

提交表单

表单填好后,当然是提交表单。在selenium中有几种方法能提交表单。

  1. 在页面中观察对应的提交按钮,找到这个元素,然后执行该元素的click()方法,实现表单提交。在这个页面中,“提交”按钮当然是“立即登录”按钮了,找到这个元素再执行click()方法即可。这种方法虽然通用,但必须找到登录元素所在的位置,比较麻烦;
  2. 直接执行account.submit()方法,也能提交表单。当调用元素的submit()方法时,selenium会寻找离该元素最近的可提交的元素,具体是有type="submit"属性的元素,并提交。这里离account最近的满足该条件的元素当然就是“立即登录”按钮啊,所以也能达到提交表单的效果。当然,按照这个原理,也可以通过密码框元素的submit()方法即passwd.submit()实现同样的效果,非常方便,推荐使用这种方法;
  3. 最后一种方法是模拟键盘的操作。很多网站登录页面的实现逻辑都是账户和密码填好后,直接按回车就可以提交表单,实现登录。selenium提供了模拟键盘的方法,如elem.send_keys(Keys.RETURN),这相当于“点击”了回车键,实现同样的效果。

综合来说,个人觉得第二种方法更加直观好用,第三种模拟键盘的方法需要考虑网站的键位顺序,可能会出现一些问题。所以直接执行account.submit(),进入选课系统,现在页面如下:

![选课系统界面1]
](http://upload-images.jianshu.io/upload_images/3029393-2a0d92550e561530.JPG?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

选课系统界面2

进入选课页面

现已成功登录系统,按照选课流程,需要先点击左下角“课务管理”,然后再点击“课务管理”下面的“课程网上选课管理”,此时右边弹出的界面即为选课页面。所以,现阶段的任务是找到“课务管理”和“课程网上选课管理”两个元素,分别执行click事件,进入选课界面。

首先找到“课程管理”位置,执行click事件

CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
CourseManagement.click()

可运行时却提示“no such element”错,这令人很郁闷,代码中明明有menu这个id的,为什么会报错呢?这个问题纠结了好久,selenium文档上也没有这个问题,最后费了好大的力气,终于在stackoverflow上找到了答案。有的页面由几个frame组成,如果要访问的元素不在当前的frame中,那么必须先切换到该元素所在的frame,才能进一步选定元素。那frame又是什么呢?我查了下,找到了下面这段简要描述:

框架是网页中常用的技术,可以让多个URL的内容显示在一个页面中。常用标签FRAMESET,FRAME实现。FRAMESET是用以划分框窗,每一框窗由一个FRAME标记所标示,FRAME必须在FRAMESET范围中使用。iframe在frame的基础上提供了更多好用的特性。

仔细一看,左边导航栏果然在一个在一个id为MenuFrame的iframe中,而刚才相当于在默认的frame中,当然找不到这个元素,所以现在的任务是转到相应的frame,再执行操作。【4.jpg】

页面源代码

了解原因后,查了文档,发现switch_to_frame()可以转到指定的frame,代码段如下:

frame = driver.find_element_by_id("MenuFrame")
driver.switch_to_frame(frame)

进入正确的frame之后,下面的代码就能正确执行了

CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
CourseManagement.click()

下一步是点击“课程网上选课管理”。于是,按上面的套路,我写了类似的代码

driver.find_element_by_id('tree1_2_a').click()

代码执行后,点击事件能触发,但是右边弹出的页面却并不是预想的选课页面。仔细一看,原来是错误地“点击”了“学期课表信息查询”按钮,导致右边界面不对。再次确认元素的id没问题后,接着又执行了几次,每次结果都不太一样,有时候“点击”上面的按钮,有的时候“点击”下面的按钮。程序员的都知道,这种不按套路跑的程序是最让人头疼的,代码明明是对的,但为什么每次结果都不一样呢?难道还是代码的问题?代码肯定没错,应该是环境的问题......

ActionChains类

这一通无意义的想法下来,我还是乖乖谷歌吧。用中文搜了好久也找不到对应的问题,最后还是用了英文关键字才找到了问题的所在。这种问题主要是由于模拟浏览器的指针定位错误引起的,就相当于鼠标的坐标计算错了,所以导致点击了错误的位置。有人提出了可以用ActionChains类来实现点击事件,以下是ActionChains实现示例:

menu = driver.find_element_by_css_selector(".nav")
hidden_submenu = driver.find_element_by_css_selector(".nav #submenu1")
ActionChains(driver).move_to_element(menu).click(hidden_submenu).perform()

最后一行是一个动作链的实现,首先移动到menu元素,然后点击hidden_submenu元素,最后的perform()表示立即执行该动作链。ActionChains实现机制类似于真实的鼠标操作,容易理解。但代码改用ActionChains实现鼠标点击事件后,错误仍然存在,真是让人奇怪,难不成确实是环境的问题?看来还得找另外的方法。

嵌入JavaScript代码

stackoverflow上有人提到,selenium有直接执行JavaScript代码的接口。selenium本身就是一个JS模拟器,用原生的JavaScript实现点击事件肯定没问题。貌似有点道理,先试一试再说。于是我嵌入了一行简单的JavaScript代码

driver.execute_script('document.getElementById("tree1_2_a").click()')

再次运行,bug解决!

一路随着bug狂奔之后,最终的选课界面终于出现了,下一步就是就是找到要选的课的位置,循环判断能否选课,再传递click事件,完成选课!

返回默认frame

然而,还是太年轻,高兴得太早了。接着,先找到课的位置,再执行简单的点击事件(PS. 下面的xpath路劲是直接在控制台复制的,方法见上,简单快速!)

driver.find_element_by_xpath('//*[@id="contentParent_dgData"]/tbody/tr[44]/td[8]')

但是又提示“no such element”错误。又是这个错误!仔细一想,难道选课页面在另外一个frame里?仔细一看,还真是。所以必须先转到选课页面所在的frame,然后才能进行操作。于是又有了下面代码

Courseframe = driver.find_element_by_id("PageFrame")
driver.switch_to_frame(Courseframe)

又是“no such element”错误!为什么呢?原来两个frame间的关系是平行的,在其中一个frame是看不到另一个frame的元素的,必须先进入主frame,即相当于这两个frame的父frame,然后才能进入另外一个frame。查看官方文档后,发现switch_to_default_content()函数能切换到默认的frame。执行这个函数后,上面的代码就能正确地执行了。

到此,下面的逻辑就很简单了。先循环判断要选的课是否处于可选状态,可以的话直接执行click事件。
由于网站的frame用得比较多,需要特别注意frame间的转换。

多说一句

最近阿里月饼事件闹得沸沸扬扬,我也不是受这件事的启发才写脚本的,纯粹是感兴趣。
任务自动化本来就是程序员的一大乐趣,无关价值观。

附. 完整代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import os
import io
import sys
import config
import time

# 将wanted_course_num改为想选的课的顺序
# 有效沟通技巧是0,宽带通信网是1,以此类推
wanted_course_num = 42
wanted_course_string = '//*[@id="contentParent_dgData_hykFull_'
wanted_course = wanted_course_string + str(wanted_course_num) + '"]'
wanted_course2 = 'contentParent_dgData_hykSelkc_' + str(wanted_course_num)
print(wanted_course)
# 下载chromedriver,我这里是放在了
# E:\LabProjects\crwalChinaZ\chromedriver
# 更改为你放置的位置
chromedriver = "E:\LabProjects\crwalChinaZ\chromedriver"
os.environ['webdriver.chrome.driver'] = chromedriver
driver = webdriver.Chrome(chromedriver)
# driver = webdriver.PhantomJS()
driver.get('http://yjxt.bupt.edu.cn/')
driver.implicitly_wait(3)
# driver.maximize_window()
account = driver.find_element_by_id("username")
passwd = driver.find_element_by_id('password')
account.send_keys(config.account)
passwd.send_keys(config.password)
account.submit()
# try:
#     CourseManagement = WebDriverWait(driver, 20).until(
#         EC.presence_of_element_located((By.ID, 'menu')))
# except Exception as e:
#     print(e)
driver.implicitly_wait(10)
while 1:
    frame = driver.find_element_by_id("MenuFrame")
    driver.switch_to_frame(frame)
    CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
    CourseManagement.click()
    driver.execute_script('document.getElementById("tree1_2_a").click()')
    # driver.find_element_by_id('tree1_2_a').click()
    driver.implicitly_wait(5)
    driver.switch_to_default_content()
    Courseframe = driver.find_element_by_id("PageFrame")
    driver.switch_to_frame(Courseframe)


    logic_button = driver.find_element_by_xpath(wanted_course).text
    if u'班级已全选满' in logic_button:
        print('wait 10 seconds!') 
    else:
        # button = driver.find_element_by_xpath('//*[@id="contentParent_dgData"]/tbody/tr[44]/td[8]')
        # button.click()
        string = 'document.getElementById("{}").click()'.format(wanted_course2)
        # print(string)
        # driver.execute_script('document.getElementById(%s).click()' %(wanted_course2))
        driver.execute_script(string)
        driver.implicitly_wait(2)
        driver.switch_to_default_content()
        driver.switch_to_frame(driver.find_element_by_xpath("//iframe[@name='selClass']"))
        driver.execute_script('document.getElementById("contentParent_dgData_ImageButton1_0").click()')
        break;
    driver.switch_to_default_content()
    # driver.refresh()
    time.sleep(10)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,839评论 6 482
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,543评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 153,116评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,371评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,384评论 5 374
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,111评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,416评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,053评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,558评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,007评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,117评论 1 334
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,756评论 4 324
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,324评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,315评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,539评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,578评论 2 355
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,877评论 2 345

推荐阅读更多精彩内容