广州落户公示名单抓取脚本

简介

落户广州有个环节是政府公示落户人员的名单和审核结果,地址是:关于引进人才入户人员名单的公示
由于这个页面不支持搜索,只能肉眼查找,要手动点击几十次“下一页”,效率非常低,因此小蓝藻打算写一个脚本,把所有公示名单都抓出来。

这样不仅方便查找,并且还可以做自动匹配,一旦找到名字,就发送通知,更方便及时知道公示结果。

代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import urllib,urllib2
from bs4 import BeautifulSoup
import json
import time
import sys


url='http://www.hrssgz.gov.cn/vsgzpiapp01/GZPI/Gateway/PersonIntroducePublicity.aspx'

req = urllib2.Request(url = url)
res = urllib2.urlopen(req)
res = res.read()

soup = BeautifulSoup(res, 'html.parser')

pageCount = soup.find(id="PageCount").text
pageRange = int(pageCount) + 1


for i in range(1,pageRange):
    req = urllib2.Request(url = url)
    res = urllib2.urlopen(req)
    res = res.read()

    soup = BeautifulSoup(res, 'html.parser')
    key = soup.find(id="__VIEWSTATE")["value"]

    params = {
         '__VIEWSTATE':key,
         '__EVENTTARGET':'LinkButton1',
         '__EVENTARGUMENT':'',
         'ToPage':i
    }

    params = urllib.urlencode(params)

    request = urllib2.Request(url = url,data = params)
    response = urllib2.urlopen(request).read()
    soup2 = BeautifulSoup(response, 'html.parser')
    pageresult = soup2.find(id="data_field")
    print pageresult

观察了这个公示页面的前端代码,发现每次在点击“下一页”、“跳转”等按钮的时候,会触发对应的方法,然后传递相应信息到后端,后端再返回对应的数据。

由于我要遍历所有页面的数据,因此调用传递页码的方式来获取所有数据。

返回的数据都是html,可读性很差,因此我采用BeautifulSoup库来解析页面,将展示数据的table展示出来

由于网站不需要做任何登陆验证,所以代码就非常简单啦,直接用python运行这个脚本就可以了,结果如下:

$ python do.py
<td id="data_field">
<table bgcolor="Silver" border="0" cellpadding="0" cellspacing="1" class="listtable" id="DDDeclareInfo" rules="all" width="100%">
<tr align="center" class="ListHeader">
<td>姓名</td><td>单位名称</td><td>批复结果</td><td>审批单位</td><td>公示开始时间</td><td>公示结束时间</td>
</tr><tr class="ListItem">
<td>黄铭川</td><td>广州市保瑞物流有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListAltern">
<td>朱雪琦</td><td>广州丰铁汽车部件有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListItem">
<td>戴森</td><td>中信环境技术(广州)有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListAltern">
<td>林茵</td><td>广州市南沙区珠江街社区综合管理服务中心(珠江街出租屋管理服务中心、珠江街劳动和社会保障服务中心、珠江街计划生育服务所)</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListItem">
<td>骆佳薇</td><td>广州市友居房地产代理有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListAltern">
<td>涂兵兵</td><td>广州市碧南房地产开发有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListItem">
<td>张效磊</td><td>中交二航局南方工程有限公司</td><td>同意</td><td> 广州市南沙区人力资源和社会保障局</td><td>2018年6月13日 11:27</td><td>2018年6月21日 11:27</td>
</tr><tr class="ListAltern">
<td>曾晓容</td><td>广州聚微光电科技有限公司</td><td>同意</td><td>广州市增城区人力资源和社会保障局(原人事局)</td><td>2018年6月13日 9:35</td><td>2018年6月21日 9:35</td>
</tr><tr class="ListItem">
<td>温玉明</td><td>广州江河幕墙系统工程有限公司</td><td>同意</td><td>广州市增城区人力资源和社会保障局(原人事局)</td><td>2018年6月13日 9:30</td><td>2018年6月21日 9:30</td>
</tr><tr class="ListAltern">
<td>黄平</td><td>广州江河幕墙系统工程有限公司</td><td>同意</td><td>广州市增城区人力资源和社会保障局(原人事局)</td><td>2018年6月13日 9:29</td><td>2018年6月21日 9:29</td>
</tr>
</table>
</td>
<td id="data_field">
<table bgcolor="Silver" border="0" cellpadding="0" cellspacing="1" class="listtable" id="DDDeclareInfo" rules="all" width="100%">
<tr align="center" class="ListHeader">
<td>姓名</td><td>单位名称</td><td>批复结果</td><td>审批单位</td><td>公示开始时间</td><td>公示结束时间</td>
</tr><tr class="ListItem">
<td>刘志</td><td>广州大学松田学院</td><td>同意</td><td>广州市增城区人力资源和社会保障局(原人事局)</td><td>2018年6月13日 9:29</td><td>2018年6月21日 9:29</td>
</tr><tr class="ListAltern">
<td>陈玉瑶</td><td>广州华立科技职业学院</td><td>同意</td><td>广州市增城区人力资源和社会保障局(原人事局)</td><td>2018年6月13日 9:25</td><td>2018年6月21日 9:25</td>
</tr><tr class="ListItem">
<td>陈婉宜</td><td>广州易淘商贸有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListAltern">
<td>于冬</td><td>广州肽达生物科技有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListItem">
<td>杜纹纹</td><td>广州天旗生物科技有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListAltern">
<td>朱利枚</td><td>白云区永平街社区卫生服务中心</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListItem">
<td>张洋</td><td>广州完全日用品有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListAltern">
<td>阳良芬</td><td>广州市白云区良芬商品信息咨询服务部</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListItem">
<td>熊志祥</td><td>广州市皇健医药科技有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr><tr class="ListAltern">
<td>沈素妃</td><td>广州市斌盛贸易有限公司</td><td>同意</td><td>广州市白云区人力资源和社会保障局</td><td>2018年6月13日 8:55</td><td>2018年6月21日 8:55</td>
</tr>
</table>
...

以上内容输出到文本,然后用grep来查找你的名字,或者输出成html文件,直接用浏览器打开:


image.png

你也可以写个脚本,用crontab定时跑,然后用mail或者调用其他发送通知的API,来做定时检测和通知,更方便哦。

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,454评论 25 707
  • 国家基本比例尺的梯形分幅与编号 1. 1:100万地形图的分幅编号 1∶100万地形图分幅和编号是采用国际标准分幅...
    Gerhard_杨光辉阅读 4,858评论 0 1
  • 沉稳、细心、有胆识、大度、诚信 培养雄性领袖气质,首先要沉稳,下面几条可以让你慢慢变沉稳: (1)不要随便显露你的...
    Mr丶Peng阅读 927评论 0 2
  • 看了两遍 把几乎所有台词写在两张纸上。第一次看个电影像去参加一个研讨会…… “没人知道你是谁 这就是你的力量”--...
    Vimutti阅读 406评论 0 0
  • 阳光打进病房,照到安邑宽大的病员服上,安邑已经有些年没有素面朝天的面对邓海洋。她觉得自己像是赤裸的坐在他面前一样,...
    沈落轻阅读 251评论 0 3