什么情况?python这次居然被web scraper比下去了

周末,永恒君和一位B站网友讨论交流了一下关于web scraper爬取网页的问题。今天来和各位分享一下,希望能给大家有帮助。

需求

1、爬取的网站地址:

http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/index.html?pageId=7bcf3b0574e320a487ada1f504759be4&s21=%E8%B5%94%E5%81%BF

2、需要抓取的信息

爬取文书列表内容,报告标题、文号、日期、摘要等等信息。

3、需要抓取多页,比如说前10页。

分析网站的情况

1、抓取的页面翻页的时候,url是不会变的。而在页面的源码当中又找不到内容,说明网页是通过异步加载的。

2、打开F12,就会弹出下面的暂停提示,阻止后续的查看。没事,点击右下角的取消断点,再运行即可。

3、点击“network”,点击网页的第二页,查看请求的数据。

可以看到,是post请求,后面需要有一堆的参数

一般而言,通过这样请求之后,可以获取到真实的json文件,里面就包含了网页中文书的列表当中,然而这次却是不一样,请求得到的居然是加密的信息,还需要通过一定方式来进行解密才行。

到这里,已经可以感受到网页开发人员的“苦心”,反爬的措施可谓是非常的多。不过,我还是在网上找到了一篇网友关于用python解决这上面问题的办法和代码,有需要的时候可以参考一下。这里有些内容在自己的能力圈之外,就暂时不考虑了。

https://blog.csdn.net/Since_you/article/details/100566633

web scraper爬取

用python比较复杂的话,那么就考虑用web scraper来试试。

python爬取的效率当然高,但是反爬的太厉害了,大部分的网站都会对python进行一定的限制和爬取,这样写代码的成本就无形增加了很多。

web scraper则不用考虑这么多,只要浏览器里面能看到数据,就能够进行爬取。

回头看看网站的情况:一是url不变,二是数据不在网页源码当中。那么就考虑“动态加载进行翻页”的这种情况,之前永恒君写过这个教程:

传送门在这里

主要配置如图:

关键点就是"selector type"和"click selector"的配置

"selector type"(用于选择网页中的文书列表)选择"Element click"
"click selector"(用于翻页)这里需要注意,一般如果是直接在网页点选的话,得到的css代码是这样的

.left_7_3 a:nth-of-type(n+2)

表示的意思就是从第二个翻页器(上一页为第一个,1为第二个)开始点击,一直到最后一个。

因为这个url有非常多的页,比如,如果希望只取前5页的话,可以如下更改:

.left_7_3 a:nth-of-type(-n+6)

n的取值是从0开始的。

然后再在这个选择器下面,配置标题、文号、日期、摘要的选择器。

最终的结构图就是这样的:

爬取的过程及结果就是这样的:


这个方法相对python而言,节省的时间可不止一点点,结果基本上一致。

这里把上面的web scraper的配置也分享一下:

{"_id":"caipan","startUrl":["http://wenshu.court.gov.cn/website/wenshu/181217BMTKHNT2W0/index.html?pageId=7bcf3b0574e320a487ada1f504759be4&s21=%E8%B5%94%E5%81%BF"],"selectors":[{"id":"list","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"div.LM_list:nth-of-type(n+3)","multiple":true,"delay":0,"clickElementSelector":".left_7_3 a:nth-of-type(-n+4)","clickType":"clickOnce","discardInitialElements":"do-not-discard","clickElementUniquenessType":"uniqueText"},{"id":"title","type":"SelectorLink","parentSelectors":["list"],"selector":"a.caseName","multiple":false,"delay":0},{"id":"number","type":"SelectorText","parentSelectors":["list"],"selector":"span.ah","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["list"],"selector":"span.cprq","multiple":false,"regex":"","delay":0},{"id":"content","type":"SelectorText","parentSelectors":["list"],"selector":"p","multiple":false,"regex":"","delay":0}]}

批量下载word文书

每个文书都提供有word下载的链接,但是实现批量下载还是有一点困难。

1、word的下载链接直接在按钮或者网页源码里面是提取不到的,是需要根据文书的url中的"docId"参数来构造的,即

http://wenshu.court.gov.cn/down/one?” + docID地址

例如:

爬取到的文书的详细页地址为:

http://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=f9ffb134f0cb4a2ab832abea01298704

那么下载地址就是:

http://wenshu.court.gov.cn/down/one?docId=f9ffb134f0cb4a2ab832abea01298704

2、有了这个地址之后,原本以为可以直接用迅雷、IDM等软件来批量下载,但是很显然,网站的开发人员限制了。经过不同方法的验证,发现目前只能是通过浏览器来挨个下载。(另外,可能可以通过python设置各种反爬的方法来实现批量下载的目的,但是工程量比较大,我没试验成功,理论上应该是可的。)

那么就用了最笨的方法,借助python来模拟鼠标键盘的操作,将url批量的输入到浏览器当中,实现批量下载。

下面是单次下载的代码,批量的话只需要读取web scraper爬取的文件,构造好url,通过一个循环,依次输入下载即可。

import time
import pyautogui

time.sleep(1)
url_position = (160, 50) #url位置

def input_id(x,y,url): #输入url的动作
    pyautogui.moveTo(x, y, duration=0.2)  #0.25表示完成移动的时间          
    pyautogui.click(button='left')
    time.sleep(0.5)
    pyautogui.typewrite(url,0.01)#输入字符,0.1表示输入每个字符间隔的时间
    time.sleep(0.5)
    pyautogui.press("enter")

url1 = "http://wenshu.court.gov.cn/down/one?docId=694b012a59e34ae19967abeb00d512dc"

input_id(url_position[0],url_position[1],url1)


小结一下:

1、python固然强大,但是有时用web scraper可以效率更高,节省更多的时间。

2、web scraper爬取url不变、异步加载的网页,关键是"selector type"和"click selector"的配置,可以参考永恒君之前分享web scraper的教程。

3、python可以通过pyautogui库,来实现自动化操作任意鼠标、键盘的操作。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,921评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,635评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,393评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,836评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,833评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,685评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,043评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,694评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,671评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,670评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,779评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,424评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,027评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,984评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,214评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,108评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,517评论 2 343