在尝试了用scrapy爬条法司网站上的双边条约后,我发现,这个网站的烂结构让我吃够了苦。在网站上有个表格,表中列出了中国与其他国家签订的104个双边条约,可是我试了几次,只下了九十个。后来一看,其中有一部分是PDF,气死人了。而在其列表页中,也是错误百出,欧洲国家只列出了三个国家的条约。无奈,我只好在网站中搜索,却发现搜索结果用了JS。苦啊。看了一些资料,我发现饲养虫子的路还有很长一段啊。网站推荐了Selenuim神器。在安装中时,我又经历了一番折腾,才搞定。我得赶紧记下来,供各位小白饲养员们参考。
安装Python下的selenium工具,很容易。
pip install selenium
安装谷歌的Chromedriver,有个坑,大家要小心。
第一,下载时一定要看清楚你的谷歌浏览器版本号。
第二,下载了driver之后,一定要放在python的目录下。