Node.js Spider

2017-04-22_14-55-04.png

1.基础知识

爬虫
爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。

Robots协议
robots.txt是一个文本文件,也是一个协议,不是一个命令。
robots.txt是爬虫要查看的第一个文件。
robots.txt告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照文件中的内容来确定访问的范围。

配置环境

express spider && cd spider && npm install 创建项目spider并安装依赖
cd bin && node www 启动服务器
npm install request --save-dev 安装request模块并放入项目
npm install cheerio --save-dev 安装cheerio模块并放入项目

模块相关
superagent :发起http请求
cheerio :解析http返回的html内容
async :多线程并发控制

2.原理分析

步骤1:app.js

var express = require('express');
var app = express();

app.get('', function(req,res){
    res.send('hi,world!');
});
app.listen(3000);

测试
supervisor start app.js

3.实战案例

3.1 爬取图片并保存到本地

var http = require('http');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');

var url = 'http://tu.duowan.com/tag/5037.html';

function saveImg($){
    var arr = [];
    $('.box').each(function(index,item){
        //获取图片的标题
        var obj = {
            'name':$(this).find('em a').text(),
            'img':$(this).find('img').attr('src')
        };
        arr.push(obj);
        //采用request模块,向服务器发起一次请求,获取图片资源
        request.head(obj.img, function(err, res, body){
            if(err){
                console.log(err);
            }
        });
        //通过流的方式,把图片写到本地目录下
        request(obj.img).pipe(
            fs.createWriteStream('./imgs/'+obj.name+'.jpg')
        );

        // 在本地存储所爬取的内容资源
        var file = './imgs/note.log';
        var content = obj.name+'\n';
        fs.appendFile(file, content, 'utf-8', function(err){
            if(err){
                console.log(err);
            }
        });
    });
    console.log(arr);
}
function startRequest(url){
    //采用http模块向服务器发起一次get请求
    http.get(url,function(res){
        var html = '';
        //防止中文乱码
        res.setEncoding('utf-8');
        res.on('data', function(chunk){
            //监听data事件,每次取一块数据
            html += chunk;
        }).on('end', function(){
            //监听end事件,如果整个网页内容的html都获取完毕,就执行回调函数
            //采用cheerio模块解析html
            var $ = cheerio.load(html);
            //在本地存储所爬取到的图片资源
            saveImg($);
        }).on('error', function(err){
            console.log(err);
        });
    });
}
function getPage(url){
    startRequest(url);
}
getPage(url);

3.2 爬取博客

环境配置

npm install async -save-dev
npm install url-save-dev
npm install superagent -save-dev
npm install eventproxy -save-dev

代码解析


var cheerio = require('cheerio');
var async = require('async');
var url = require('url');
var superagent = require('superagent');

var express = require('express');
var app = express();

var eventproxy = require('eventproxy');
var ep = eventproxy();


var pageurl = [];
var pagenum = 3;
for(var i=0; i<pagenum; i++){
    pageurl.push('http://www.ruanwen2008.com/page_'+i+'.html');
}


app.get('/', function(req,res,next){
    var posturl = [];
    //ep重复监听emit事件
    //eventproxy就是使用事件(并行)方法来解决这个问题。当所有的抓取完成后,eventproxy接收到事件消息自动帮你调用处理函数。
    ep.after('getPost', pageurl.length, function(eps){
        var count = 0;
        //抓取内容
        var fetch = function(url,callback){
            count++;
            superagent.get(url).end(function(error,result){
                count--;

                var $ = cheerio.load(result.text);
                var title = $('title').text();
                var obj = {title:title};
                callback(null,obj);
            });
        };
        //控制最大并发数为5
        async.mapLimit(posturl, 5, function(url,callback){
            fetch(url, callback);
        }, function(error,result){
            res.send(result);
        });
    });
    pageurl.forEach(function(url){
        superagent.get(url).end(function(error,response){
            if(error){
                return next(error);
            }
            //cheerio充当服务器端的jQuery功能
            //先使用它的.load()来载入HTML
            //再通过CSS selector来筛选元素。
            var $ = cheerio.load(response.text);
            //其结果为一个个对象,调用 .each(function(index, element))函数来遍历每一个对象,返回的是HTML DOM Elements。
            $('.lieb>ul>li>h2>a').each(function(){
                var href = $(this).attr('href');
                posturl.push(href);
            });
            //使用eventproxy来并发抓取
            ep.emit('getPost', 'get article');
        });
    });
});
//监听服务器端口
app.listen(3001, function(req,res){
    console.log('app is running');
});

4.爬虫小结

4.1http.get+cheerio+iconv-lite

直接使用http的get方法进行请求url,将得到的内容给cheerio解析,用jquery的方式解析。得到的结果中文乱码如何解决呢,用iconv-lite模块将得到的内容进行转码即可。

http.get(options,function(result){
  var body = [];
  result.on('data',function(chunk){
     body.push(chunk);
  });
  result.on('end', function () {
     var html = iconv.decode(Buffer.concat(body), 'gb2312');  //注意这里body是数组
     var $ = cheerio.load(html);
     ...
  });
});

4.2request+cheerio+iconv-lite

直接获取到Buffer类型的数据。然后将得到的内容给cheerio解析,用jquery的方式解析出我们要东西即可。

request(options,function(err,res,body){
  if(err)console.log(err);
  if(!err&&res.statusCode==200){
     var html = iconv.decode(body, 'gb2312');     //这里body是直接拿到的是Buffer类型的数据,可以直接解码。
     var $ = cheerio.load(html);
     ...
  }
});

4.3 superagent+cheerio+superagent-charset

用了superagent的get方法发起请求,解码的时候用到了superagent-charse,用法还是很简单的,之后再将获取到的内容给cheerio解析,用jquery的方式解析出我们要东西即可。结果中文乱码解决用superagent-charset模块进行转码。

var charset = require("superagent-charset");
var superagent = charset(require("superagent"));   //将superagent模块传递给superagent-charset
superagent.get(url)
  .charset('gb2312')                                //用charset方法达到解码效果。
  .end(function(err,result){
     if(err) console.log(err);
     var $ = cheerio.load(result.text);
     ...
  });
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,905评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,140评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,791评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,483评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,476评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,516评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,905评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,560评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,778评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,557评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,635评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,338评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,925评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,898评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,142评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,818评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,347评论 2 342