Java网络爬虫实操(2)

上一篇: Java网络爬虫实操(1)

本篇文章继续介绍爬虫框架NetDiscovery的使用:如何发重复请求、如何用爬虫容器引擎驱动爬虫程序

1 )重复请求的场景举例

从2017年下半年开始,比特币、数字货币、虚拟币、区块链技术、去中心化等等新名词频频出现在媒体上,让人不想看到都很难
(本篇文章不研究数字货币是不是未来的发展方向)
风险提示:炒币有风险,入市需谨慎

数据货币信息平台

找了一个数字货币的聚合信息平台,上面会定时刷新每种货币的价格。如果要写一个有实际价值的抓数据程序,那肯定希望这个程序能重复执行抓数据的动作吧。

目标任务:每隔一段时间去获取这个页面上的数字货币【EOS】的价格信息

一种数字货币的价格信息

2 )代码实现

  • 解析类
package com.sinkinka.parser;

import com.cv4j.netdiscovery.core.domain.Page;
import com.cv4j.netdiscovery.core.parser.Parser;

public class EosParser implements Parser {

   @Override
   public void process(Page page) {

       String xpathStr = "//div[@class='coinprice']/text()";
       String marketPrice = page.getHtml().xpath(xpathStr).get();
       System.out.println("marketPrice=" + marketPrice);

   }
}

  • 执行方法
package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class EosSpider {

    public static void main(String[] args) {

        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";

        long periodTime = 1000 * 600;

        Spider.create()
                .name("EOS")
                .repeatRequest(periodTime, eosUrl)、
 //下面这行代码要注意,要设置>=periodTime,想了解具体作用,可以去分析源代码
                .initialDelay(periodTime) 
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .run();
    }
}
  • 执行结果


    演示数据

3 )爬虫容器引擎

数字货币有几百上千种,每种货币信息都在单独的页面上,如果要同时获取多种数字货币的信息,怎么处理?

依赖框架,有一种实现方法是:给每种数字货币定义一个爬虫程序,然后把爬虫程序放到容器里,统一交给爬虫引擎去驱动。

代码示例:

package com.sinkinka;

import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.core.SpiderEngine;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;

public class TestSpiderEngine {

    public static void main(String[] args) {
        //爬虫容器引擎
        SpiderEngine engine = SpiderEngine.create();

        //爬虫程序1
        String eosUrl = "https://www.feixiaohao.com/currencies/eos/";
        long periodTime1 = 1000 * 5;
        Spider spider1 = Spider.create()
                .name("EOS")
                .repeatRequest(periodTime1, eosUrl)
                .parser(new EosParser())
                .downloader(new HttpClientDownloader())
                .initialDelay(periodTime1);

        engine.addSpider(spider1);

        //可以增加多个爬虫到容器中,
//        engine.addSpider(spider2);
//        ......

        engine.httpd(8088);     //这一行要注意,通过接口可以获取访问爬虫容器内的状态
        engine.runWithRepeat();
    }
}

访问容器状态:
接口地址:http://127.0.0.1:8088/netdiscovery/spiders
返回的内容:

{
    "code":200,
    "data":[
        {
            "downloaderType":"HttpClientDownloader",   //用的哪个下载器
            "leftRequestSize":0,                       //队列中还剩的request数量
            "queueType":"DefaultQueue",                //队列类型:jdk(DefaultQueue)、redis、kafka
            "spiderName":"EOS",                        //爬虫的名字,在引擎里唯一
            "spiderStatus":1,                          //1:运行  2:暂停  4:停止
            "totalRequestSize":1                       //加入到队列中的request总数量,减去上面的leftRequestSize,等于该爬虫已经完成的重复请求次数
        }
    ],
    "message":"success"
}

4 )总结

本篇简单介绍了NetDiscovery发重复请求这个功能。这就是框架的价值,如果不用框架,自己再去实现的话,要多写一些代码的。
爬虫引擎还有很多功能,敬请期待。


今天是西方情人节,祝天下有情人节日快乐!
祝大家身体健康、家庭和睦、工作顺利!

下一篇:Java网络爬虫实操(3)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,607评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,047评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,496评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,405评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,400评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,479评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,883评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,535评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,743评论 1 295
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,544评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,612评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,309评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,881评论 3 306
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,891评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,136评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,783评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,316评论 2 342

推荐阅读更多精彩内容