Java开源爬虫框架WebCollector图片抓取教程

网站中的图片和网页在本质上是相同的,图片和网页的获取本质上都是根据URL从网站中获取网页/图片的字节数组(byte[]),浏览器会根据http响应头中的content-type信息来决定以网页还是图片的形式来展示资源。

爬取图的效果图如下:



实现的代码如下:

package imageDownload;

import java.io.File;

import java.io.FileNotFoundException;

import java.io.IOException;

import java.util.concurrent.atomic.AtomicInteger;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;

import cn.edu.hfut.dmic.webcollector.model.Page;

import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;

import cn.edu.hfut.dmic.webcollector.util.Config;

import cn.edu.hfut.dmic.webcollector.util.FileUtils;

public class DemoImageCrawler extends BreadthCrawler {

// 下载路径

File downloadDir;

// 用于生成图片名称的数字

AtomicInteger imageId;

/**

* 爬行图片

*

* @param crawlPath

* 爬行的路径

* @param autoParse

* 解析

*/

public DemoImageCrawler(String crawlPath, String downloadPath) {

super(crawlPath, true);

// 创建一个文件

downloadDir = new File(downloadPath);

// 判断是否存在,如果不存在就,执行mkdirs方法

if (!downloadDir.exists()) {

downloadDir.mkdirs();

}

computeImageId();

}

/**

* 访问 Page 路径 CrawlDatums 爬虫数据

*/

@Override

public void visit(Page page, CrawlDatums next) {

// 根据http来判断当前的资源是图片还是html

String contentType = page.getResponse().getContentType();

// 在判断当前的资源是否为Html

if (contentType == null) {

return;

} else if (contentType.contains("html")) {

// 如果有图片的,我就拿图片那部分保存在文件中

Elements imgs = page.select("img[src]");

// 然后在 遍历所有html中所有图片

for (Element img : imgs) {

String attr = img.attr("abs:src");

next.add(attr);

}

} // 在判断如果是起始图片就直接下载

else if (contentType.startsWith("image")) {

//进行切割加成名称

String extensionName = contentType.split("/")[1];

String imageFileName = imageId.incrementAndGet() + "." + extensionName;

File imageFile = new File(downloadDir, imageFileName);

try {

FileUtils.writeFile(imageFile,page.getContent());

System.out.println("保存图片" + page.getUrl() + "到" +imageFile.getAbsolutePath());

} catch (FileNotFoundException e) {

// TODO Auto-generated catch block

e.printStackTrace();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

}

public static void main(String[] args) throws Exception {

DemoImageCrawler demoImageCrawler = new DemoImageCrawler("crawlPath", "downloadPath");

// 添加url

demoImageCrawler.addSeed("可爱大胸妹子夏笑笑傲人美乳无比诱人_妹子图");

// 添加爬取范围

demoImageCrawler.addRegex("http://www.mmjpg.com/mm/*");

// 设置每次爬取都从新开始

demoImageCrawler.setResumable(true);

// 每次开启了30个线程

demoImageCrawler.setThreads(30);

// 大小

Config.MAX_RECEIVE_SIZE = 1000 * 1000 * 10;

// 开发

demoImageCrawler.start(3);

System.out.println(demoImageCrawler);

}

/**

* 计算图片的id

*/

public void computeImageId() {

int maxId = 1;

// 遍历出来所有图片文件

for (File imageFile : downloadDir.listFiles()) {

// 获取图片的名称

String fileName = imageFile.getName();

// 获取到名字,xxx\xxx.jsp,进行切割

String idStr = fileName.split("\\.")[0];

// 获取数字来做名称

Integer id = Integer.valueOf(maxId);

if (id > maxId) {

id = maxId;

}

}

// 创建一个新的原来数字

imageId = new AtomicInteger(maxId);

}

}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,519评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,842评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,544评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,742评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,646评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,027评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,513评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,169评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,324评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,268评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,299评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,996评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,591评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,667评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,911评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,288评论 2 345
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,871评论 2 341

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,561评论 18 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,531评论 18 399
  • ¥开启¥ 【iAPP实现进入界面执行逐一显】 〖2017-08-25 15:22:14〗 《//首先开一个线程,因...
    小菜c阅读 6,335评论 0 17
  • 一. Java基础部分.................................................
    wy_sure阅读 3,780评论 0 11
  • 文/小白 从早晨呼吸的第一口空气 透着你的味道 六月盛开的丁香花 透着你的味道 • 大槐树下的情郎和太阳 邮箱和写...
    cc1cc44bccf8阅读 251评论 0 2