2018-01-05

主要工作

选取首页中的超链接,利用布隆容器去重,将最终需要的网页选取出来,用前几节课学习的方法将需要的信息抓取出来并且存放到数据库中。

具体工作

1、初始页面


在myeclipse中输入选取的首页

2、用jsoup模拟浏览器

代码如下:


网页的头请求


用jsoup模拟浏览器

3、初始化三个容器

作用 :1、布隆容器去重,检测网页的唯一性。2、list容器存放中间页面。3、存放最终页面。

代码如下:


public static BloomFilter bloomFilter = new BloomFilter();//第一个容器,布隆过滤器,检查网页的唯一性public static ListfinalUrl = new ArrayList();//第二个容器,存放最终网页public static ListmiddleUrl = new ArrayList();//第三个容器,存放中间网页

4、解析网页取出所有包含href属性的a标签放到Elements

Elements urls = doc.select("a[href]")

5、遍历Elements取出每个Element里面的href属性

for (int i = 0; i < urls.size(); i++) {

urlFilter(urls.get(i).attr("href"));

}

6、处理URL

1、过滤三个容器

2、存放到对应的容器内

(编写对应的正则表达式,将网址正确的存放到容器内)

private static void urlFilter(String url) {

//取出不包括JavaScript的网页

if(!url.contains("Javascript")){

//取出包含http同时包含"首页"的网址

if(url.contains("http:")&&url.contains(ZLZP_URL)){

if(bloomFilter.contains(url)){

bloomFilter.addValue(url);

//将网址放到对应的容器中

middleUrl.add(url);

}

}

else if(!url.contains("http:")){

if(!bloomFilter.contains(ZLZP_URL+url)){

bloomFilter.addValue(ZLZP_URL+url);

middleUrl.add(ZLZP_URL+url);

}

}

//编写对应的正则表达式

public static void saveUrl(String url){

if(!bloomFilter.contains(url)){

bloomFilter.addValue(url);

String patternFinal = "^.+\\d+.$";

if(Pattern.matches(patternFinal, url)){

finalUrl.add(url);

}else{

middleUrl.add(url);

}

}

}

7、循环中间页面容器,处理中间页面

重复6-7步直到最终页面容器达到要求,网页全部被抓取

for (int i = 0; i < middleUrl.size(); i++) {

System.out.println("处理中间页面===="+middleUrl.get(i));

Document doc1 = getDocument(middleUrl.get(i));

Elements urls1 = doc1.select("a[href]");

for (int t = 0; t < urls1.size(); t++) {

String furl = urls1.get(t).attr("href").replace("#" ,"");//将抓取的网页最后有#的去除

urlFilter(furl);

}

if(finalUrl.size()<15000){

break;

}

}

8、循环最终容器,抓取需要获取的信息,利用JDBC存放到数据库中

for (String url : finalUrl) {

System.out.println(url);

}

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,911评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,014评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 142,129评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,283评论 1 264
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,159评论 4 357
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,161评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,565评论 3 382
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,251评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,531评论 1 292
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,619评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,383评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,255评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,624评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,916评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,199评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,553评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,756评论 2 335

推荐阅读更多精彩内容

  • 今日学习内容 一、获取初始页面 二、Jsoup模拟浏览器 Document doc = Jsoup.connect...
    GryffindorL阅读 233评论 0 0
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,505评论 18 399
  • 总结包括:1 了解前端打包方案的黑暗历史2 模块化发展3 Webpack3 打包流程 在说webpack之前, 我...
    NOTEBOOK2阅读 214评论 0 1
  • 背景:签到情况需求,展示7天的信息,如果连续签到不足7天,则从第一次连签开始(没有连则从今天开始)往后算7个,如果...
    独聆步武阅读 295评论 0 0
  • 在我们身边生活着形形色色的人,有教育者也有被教育者,有管理者与被管理者,领导与被领导者……一字之差,一个“被”字仿...
    芯星阅读 1,296评论 0 1