上一篇: Java网络爬虫实操(1)
本篇文章继续介绍爬虫框架NetDiscovery的使用:如何发重复请求、如何用爬虫容器引擎驱动爬虫程序
1 )重复请求的场景举例
从2017年下半年开始,比特币、数字货币、虚拟币、区块链技术、去中心化等等新名词频频出现在媒体上,让人不想看到都很难
(本篇文章不研究数字货币是不是未来的发展方向)
风险提示:炒币有风险,入市需谨慎
找了一个数字货币的聚合信息平台,上面会定时刷新每种货币的价格。如果要写一个有实际价值的抓数据程序,那肯定希望这个程序能重复执行抓数据的动作吧。
目标任务:每隔一段时间去获取这个页面上的数字货币【EOS】的价格信息
2 )代码实现
- 解析类
package com.sinkinka.parser;
import com.cv4j.netdiscovery.core.domain.Page;
import com.cv4j.netdiscovery.core.parser.Parser;
public class EosParser implements Parser {
@Override
public void process(Page page) {
String xpathStr = "//div[@class='coinprice']/text()";
String marketPrice = page.getHtml().xpath(xpathStr).get();
System.out.println("marketPrice=" + marketPrice);
}
}
- 执行方法
package com.sinkinka;
import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;
public class EosSpider {
public static void main(String[] args) {
String eosUrl = "https://www.feixiaohao.com/currencies/eos/";
long periodTime = 1000 * 600;
Spider.create()
.name("EOS")
.repeatRequest(periodTime, eosUrl)、
//下面这行代码要注意,要设置>=periodTime,想了解具体作用,可以去分析源代码
.initialDelay(periodTime)
.parser(new EosParser())
.downloader(new HttpClientDownloader())
.run();
}
}
-
执行结果
3 )爬虫容器引擎
数字货币有几百上千种,每种货币信息都在单独的页面上,如果要同时获取多种数字货币的信息,怎么处理?
依赖框架,有一种实现方法是:给每种数字货币定义一个爬虫程序,然后把爬虫程序放到容器里,统一交给爬虫引擎去驱动。
代码示例:
package com.sinkinka;
import com.cv4j.netdiscovery.core.Spider;
import com.cv4j.netdiscovery.core.SpiderEngine;
import com.cv4j.netdiscovery.extra.downloader.httpclient.HttpClientDownloader;
import com.sinkinka.parser.EosParser;
public class TestSpiderEngine {
public static void main(String[] args) {
//爬虫容器引擎
SpiderEngine engine = SpiderEngine.create();
//爬虫程序1
String eosUrl = "https://www.feixiaohao.com/currencies/eos/";
long periodTime1 = 1000 * 5;
Spider spider1 = Spider.create()
.name("EOS")
.repeatRequest(periodTime1, eosUrl)
.parser(new EosParser())
.downloader(new HttpClientDownloader())
.initialDelay(periodTime1);
engine.addSpider(spider1);
//可以增加多个爬虫到容器中,
// engine.addSpider(spider2);
// ......
engine.httpd(8088); //这一行要注意,通过接口可以获取访问爬虫容器内的状态
engine.runWithRepeat();
}
}
访问容器状态:
接口地址:http://127.0.0.1:8088/netdiscovery/spiders
返回的内容:
{
"code":200,
"data":[
{
"downloaderType":"HttpClientDownloader", //用的哪个下载器
"leftRequestSize":0, //队列中还剩的request数量
"queueType":"DefaultQueue", //队列类型:jdk(DefaultQueue)、redis、kafka
"spiderName":"EOS", //爬虫的名字,在引擎里唯一
"spiderStatus":1, //1:运行 2:暂停 4:停止
"totalRequestSize":1 //加入到队列中的request总数量,减去上面的leftRequestSize,等于该爬虫已经完成的重复请求次数
}
],
"message":"success"
}
4 )总结
本篇简单介绍了NetDiscovery中发重复请求这个功能。这就是框架的价值,如果不用框架,自己再去实现的话,要多写一些代码的。
爬虫引擎还有很多功能,敬请期待。
今天是西方情人节,祝天下有情人节日快乐!
祝大家身体健康、家庭和睦、工作顺利!
下一篇:Java网络爬虫实操(3)