Java 中使用 selenium 和 chrome 浏览器下载动态网页

前言

上一篇文章《用 jsoup 分析下载的 html 内容》中提到过，当我们用 OkHttp 下载网页的时候，发现下载的内容中没有我们在浏览器上看到的阅读数、评论数、喜欢数这三部分的内容。当时解释过是因为这些内容是浏览器通过 JS 动态渲染的结果。也就是浏览器先下载了 html 页面内容，然后通过 AJAX 请求了新的数据，再通过 JS 将元素添加到 Dom 树中的。所以直接下载的 html 代码中是看不到这部分内容的。那么是否我们就无法通过爬虫获取到这部分的内容呢。也不是。这就要引入一个新的工具 selenium 来实现。

selenium 介绍

selenium 是一套 web 自动化测试的软件。他能够通过编程的方式调用系统的浏览器，并驱动浏览器模拟人的方式进行操作。例如点击、输入信息、滚动屏幕等。通过这样的方式，我们就可以在程序中自动运行我们的 web 页面。同时，对于爬虫程序来说，也可以驱动浏览器访问我们要的目标页面，并且因为是在浏览器中访问的网页，所以浏览器会自动渲染动态的内容。这样就可以解决上次发生的用 OkHttp 下载网页无法获取到动态内容的问题。

selenium Windows 环境安装

selenium 可以支持几种主流的浏览器。chrome、firefox 都在支持之列，浏览器是通过不同的 WebDriver 来驱动的。所以除了对应的浏览器，我们就是要安装对应的 WebDriver。这里来演示如何在 Windows 环境中安装 WebDriver。
对于 Chrome 的 WebDriver 来说，不同版本的 WebDriver 支持的 Chrome 浏览器的版本范围都不一样。所以我们要针对自己安装的 Chrome 版本选择安装不同的 Chrome Web Driver 。例如，现在最新的版本 2.44 支持的 chrome 版本范围是 v69-71 。
首先我们要确认自己机器安装的 chrome 的版本号。启动 chrome 浏览器，点击右上角的菜单，依次选择“帮助”、；“关于 Google Chrome” 选项，如下所示

选择关于

然后出现下面的界面

chrome 版本

其中红字部分是版本号，我这里是最新版本70。

然后我们要去地址 http://chromedriver.chromium.org/downloads 去下载对应的 chrome 版本。

image.png

这里会有不同版本对不同 chrome 版本支持的说明，选择一个对应的就可以了。我的版本是70 ，所以选择了最新版本 2.44 下载

web driver 不同平台

在具体的下载页面选择对应的平台即可。我这里选择了 chromedriver_win32.zip 。下载后解压出来一个 chromedriver.exe 文件，保存到一个指定的目录即可。
这样我们将一个windows 的 selenium 环境设置好了。

使用 selenium 和 chrome 下载动态网页

我们是在 Java 中使用 selenium ，所以在前文的基础上增加 selenium 相关的依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>

然后我们来改造一下用 jsoup 分析下载的 html 内容一文中的程序。原来是通过 OkHttp 来下载网页，这里就通过 selenium 结合 chrome 浏览器来进行

        WebDriver webDriver = null;
        try {
            String url = "https://www.jianshu.com/p/675ea919230e";
            //启动一个 chrome 实例
            webDriver = new ChromeDriver();
            //访问网址
            webDriver.get(url);
            Document document = Jsoup.parse(webDriver.getPageSource());
            Element titleElement = document.selectFirst("div.article h1.title");
            Element authorElement = document.selectFirst("div.article div.author span.name");
            Element timeElement = document.selectFirst("div.article span.publish-time");
            Element wordCountElement = document.selectFirst("div.article span.wordage");
            Element viewCountElement = document.selectFirst("div.article span.views-count");
            Element commentCountElement = document.selectFirst("div.article span.comments-count");
            Element likeCountElement = document.selectFirst("div.article span.likes-count");
            Element contentElement = document.selectFirst("div.article div.show-content");
            if (titleElement != null) {
                System.out.println("标题：" + titleElement.text());
            }
            if (authorElement != null) {
                System.out.println("作者：" + authorElement.text());
            }
            if (timeElement != null) {
                System.out.println("发布时间：" + timeElement.text());
            }
            if (wordCountElement != null) {
                System.out.println(wordCountElement.text());
            }
            if (viewCountElement != null) {
                System.out.println(viewCountElement.text());
            }
            if (commentCountElement != null) {
                System.out.println(commentCountElement.text());
            }
            if (likeCountElement != null) {
                System.out.println(likeCountElement.text());
            }

            if (contentElement != null && contentElement.text() != null) {
                System.out.println("正文长度：" + contentElement.text().length());
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (webDriver != null) {
                //退出 chrome
                webDriver.quit();
            }
        }

运行这段代码之前，我们需要在虚拟机参数中指定 webdriver.chrome.driver 参数，值应该是我们下载的 chromedriver.exe 的路径。例如

虚拟机参数设置

这里，为了区分版本，我将 chromedriver.exe 改名为 chromedriver_2.44.exe 了。运行这个代码，会看到程序自动打开了一个 chrome 窗口，并且自动访问 url 地址

自动运行 chrome

运行完毕后，窗口自动推出。其中红字部分表明这个 chrome 是被 selenium 自动控制得。在控制台会输出如下内容

标题：是什么支撑了淘宝双十一，没错就是它java编程语言。
作者：Java帮帮
发布时间：2018.08.29 14:49
字数 561
阅读 628
评论 0
喜欢 4
正文长度：655

可以看到，上一次通过 OkHttp 下载是没有得阅读、评论、喜欢数量能够被解析并且输出来了。

selenium chrome 的一些操作说明

上面的例子只是说明了如何在 selenium 中打开一个网页并获取他的内容。实际上我们前面说过了 selenium 是一个 web 的自动化测试框架，他是可以模拟人对页面的元素进行操作的。例如定位元素，在文本框里输入内容，点击元素等。下面的代码就演示了如何通过程序自动打开简书的首页并且在网站内查询 Spring Boot 相关的内容

       WebDriver webDriver;
        try {
            String url = "https://www.jianshu.com/";
            webDriver = new ChromeDriver();
            webDriver.get(url);
            webDriver.findElement(By.cssSelector("#q")).sendKeys("SpringBoot");
            webDriver.findElement(By.cssSelector(".search-btn")).click();
        } catch (Exception e) {
            e.printStackTrace();
        }

执行这段代码，程序会自动打开一个 chrome 窗口，并且在首页的搜索窗口输入 Spring Boot 文本，并且自动点击搜索按钮，然后得到搜索结果页面。

自动执行简书搜索

更多详细的用法大家可以自己去探索，这里就不一一详细介绍了。

最后编辑于：2018.11.22 17:22:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,602评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,442评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,878评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,306评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,330评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,071评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,382评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,006评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,512评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,965评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,094评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,732评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,283评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,286评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,512评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,536评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,828评论 2赞 345

Java 中使用 selenium 和 chrome 浏览器下载动态网页

前言

selenium 介绍

selenium Windows 环境安装

使用 selenium 和 chrome 下载动态网页

selenium chrome 的一些操作说明

推荐阅读更多精彩内容