Java 中使用 selenium 和 chrome 浏览器下载动态网页

前言

上一篇文章《用 jsoup 分析下载的 html 内容》 中提到过,当我们用 OkHttp 下载网页的时候,发现下载的内容中没有我们在浏览器上看到的阅读数、评论数、喜欢数这三部分的内容。当时解释过是因为这些内容是浏览器通过 JS 动态渲染的结果。也就是浏览器先下载了 html 页面内容,然后通过 AJAX 请求了新的数据,再通过 JS 将元素添加到 Dom 树中的。所以直接下载的 html 代码中是看不到这部分内容的。那么是否我们就无法通过爬虫获取到这部分的内容呢。也不是。这就要引入一个新的工具 selenium 来实现。

selenium 介绍

selenium 是一套 web 自动化测试的软件。他能够通过编程的方式调用系统的浏览器,并驱动浏览器模拟人的方式进行操作。例如点击、输入信息、滚动屏幕等。通过这样的方式,我们就可以在程序中自动运行我们的 web 页面。同时,对于爬虫程序来说,也可以驱动浏览器访问我们要的目标页面,并且因为是在浏览器中访问的网页,所以浏览器会自动渲染动态的内容。这样就可以解决上次发生的用 OkHttp 下载网页无法获取到动态内容的问题。

selenium Windows 环境安装

selenium 可以支持几种主流的浏览器。chrome、firefox 都在支持之列,浏览器是通过不同的 WebDriver 来驱动的。所以除了对应的浏览器,我们就是要安装对应的 WebDriver。这里来演示如何在 Windows 环境中安装 WebDriver。
对于 Chrome 的 WebDriver 来说,不同版本的 WebDriver 支持的 Chrome 浏览器的版本范围都不一样。所以我们要针对自己安装的 Chrome 版本选择安装不同的 Chrome Web Driver 。例如,现在最新的版本 2.44 支持的 chrome 版本范围是 v69-71 。
首先我们要确认自己机器安装的 chrome 的版本号。启动 chrome 浏览器,点击右上角的菜单,依次选择“帮助”、;“关于 Google Chrome” 选项,如下所示


选择关于

然后出现下面的界面


chrome 版本

其中红字部分是版本号,我这里是最新版本70。

然后我们要去地址 http://chromedriver.chromium.org/downloads 去下载对应的 chrome 版本。

image.png

这里会有不同版本对不同 chrome 版本支持的说明,选择一个对应的就可以了。我的版本是70 ,所以选择了最新版本 2.44 下载

web driver 不同平台

在具体的下载页面选择对应的平台即可。我这里选择了 chromedriver_win32.zip 。下载后解压出来一个 chromedriver.exe 文件,保存到一个指定的目录即可。
这样我们将一个windows 的 selenium 环境设置好了。

使用 selenium 和 chrome 下载动态网页

我们是在 Java 中使用 selenium ,所以在前文的基础上增加 selenium 相关的依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>

然后我们来改造一下 用 jsoup 分析下载的 html 内容 一文中的程序。原来是通过 OkHttp 来下载网页,这里就通过 selenium 结合 chrome 浏览器来进行

        WebDriver webDriver = null;
        try {
            String url = "https://www.jianshu.com/p/675ea919230e";
            //启动一个 chrome 实例
            webDriver = new ChromeDriver();
            //访问网址
            webDriver.get(url);
            Document document = Jsoup.parse(webDriver.getPageSource());
            Element titleElement = document.selectFirst("div.article h1.title");
            Element authorElement = document.selectFirst("div.article div.author span.name");
            Element timeElement = document.selectFirst("div.article span.publish-time");
            Element wordCountElement = document.selectFirst("div.article span.wordage");
            Element viewCountElement = document.selectFirst("div.article span.views-count");
            Element commentCountElement = document.selectFirst("div.article span.comments-count");
            Element likeCountElement = document.selectFirst("div.article span.likes-count");
            Element contentElement = document.selectFirst("div.article div.show-content");
            if (titleElement != null) {
                System.out.println("标题:" + titleElement.text());
            }
            if (authorElement != null) {
                System.out.println("作者:" + authorElement.text());
            }
            if (timeElement != null) {
                System.out.println("发布时间:" + timeElement.text());
            }
            if (wordCountElement != null) {
                System.out.println(wordCountElement.text());
            }
            if (viewCountElement != null) {
                System.out.println(viewCountElement.text());
            }
            if (commentCountElement != null) {
                System.out.println(commentCountElement.text());
            }
            if (likeCountElement != null) {
                System.out.println(likeCountElement.text());
            }

            if (contentElement != null && contentElement.text() != null) {
                System.out.println("正文长度:" + contentElement.text().length());
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            if (webDriver != null) {
                //退出 chrome
                webDriver.quit();
            }
        }

运行这段代码之前,我们需要在虚拟机参数中指定 webdriver.chrome.driver 参数,值应该是我们下载的 chromedriver.exe 的路径。例如


虚拟机参数设置

这里,为了区分版本,我将 chromedriver.exe 改名为 chromedriver_2.44.exe 了。运行这个代码,会看到程序自动打开了一个 chrome 窗口,并且自动访问 url 地址


自动运行 chrome

运行完毕后,窗口自动推出。其中红字部分表明这个 chrome 是被 selenium 自动控制得。在控制台会输出如下内容

标题:是什么支撑了淘宝双十一,没错就是它java编程语言。
作者:Java帮帮
发布时间:2018.08.29 14:49
字数 561
阅读 628
评论 0
喜欢 4
正文长度:655

可以看到,上一次通过 OkHttp 下载是没有得阅读、评论、喜欢数量能够被解析并且输出来了。

selenium chrome 的一些操作说明

上面的例子只是说明了如何在 selenium 中打开一个网页并获取他的内容。实际上我们前面说过了 selenium 是一个 web 的自动化测试框架,他是可以模拟人对页面的元素进行操作的。例如定位元素,在文本框里输入内容,点击元素等。下面的代码就演示了如何通过程序自动打开简书的首页并且在网站内查询 Spring Boot 相关的内容

       WebDriver webDriver;
        try {
            String url = "https://www.jianshu.com/";
            webDriver = new ChromeDriver();
            webDriver.get(url);
            webDriver.findElement(By.cssSelector("#q")).sendKeys("SpringBoot");
            webDriver.findElement(By.cssSelector(".search-btn")).click();
        } catch (Exception e) {
            e.printStackTrace();
        }

执行这段代码,程序会自动打开一个 chrome 窗口,并且在首页的搜索窗口输入 Spring Boot 文本,并且自动点击搜索按钮,然后得到搜索结果页面。


自动执行简书搜索

更多详细的用法大家可以自己去探索,这里就不一一详细介绍了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容