最近在用node写一个小爬虫学习node,但是遇到一个不大不小的坑,就是如何将异步的node程序串行执行。下面就我遇到的坑和解决方法简单记录一下。
1.问题介绍
首先,我想通过request去访问小木虫网站,获得文章的列表,首先写了一个getList函数:
var request = require('request');
var iconv = require('iconv-lite');
const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /<th\s+>\s+<a\s+href="(.{30,40})">(.{4,20})<\/a>/ig;
function getList() {
console.log('start get list ...');
var link_array = [];
// request visit muchong.com
request({
url: urlStart,
encoding: null
}, function (err, res, body) {
if (err) {
console.log('getList err:' + err);
} else {
var html = iconv.decode(body, 'GBK');
let regRes;
while ((regRes = regExp.exec(html)) !== null) {
link_array.push({
link: regRes[1],
name: regRes[2]
})
}
console.log(link_array);
return link_array;
}
})
}
exports.getList = getList;
整个代码如上,简单的对结果进行了正则,返回一个文章列表,给外部暴露getList()这个函数。然后我再通过文件index.js
调用该模块:
var getList = require('./src/getList');
(function(){
const temp_array = getList.getList();
console.log('temp_array is:'+JSON.stringify(temp_array));
})()
然后执行该程序,结果返回temp_array is:undefined。跟预想的结果不同。
2.问题分析
单独调试getList结果正常,那么问题应该就是index.js
出问题了。很快我就发现,这里一定是因为getList()没有执行完毕,就调用下一句console.log了,因此需要程序等待getList()。网上查资料,发现可以通过async/await完成该功能,于是我就修改index.js
为:
var getList = require('./src/getList');
(async function(){
const temp_array = await getList.getList();
console.log('temp_array is:'+JSON.stringify(temp_array));
})()
So easy!加个类似修饰器之类的async/await就可以啦,再执行,结果还是undefined。这又是为何呢?为了解决问题,继续google,通过查询API和用法才知道,node的异步API都是通过一个叫Promise的东东封装成异步函数的,await的操作对象也应该是Promise对象,否则会马上返回。因此我们需要重新修改getList,使用Promise来封装:
var request = require('request');
var iconv = require('iconv-lite');
const urlStart = "http://muchong.com/bbs/journal_cn.php?tag=%BC%C6%CB%E3%BB%FA%D3%A6%D3%C3%BC%BC%CA%F5"
const regExp = /<th\s+>\s+<a\s+href="(.{30,40})">(.{4,20})<\/a>/ig;
async function getList() {
return new Promise(function(resolve, reject){
console.log('start get list...');
var link_array = [];
request({
url:urlStart,
encoding: null
}, function(err, res, body){
if(err){
console.log('getList err:'+err);
reject(err);
}else{
var html = iconv.decode(body, 'GBK');
let regRes;
while((regRes = regExp.exec(html)) !==null){
link_array.push({
link:regRes[1],
name:regRes[2]
})
}
console.log('Get list OK..');
resolve(link_array);
}
})
})
}
exports.getList = getList;
上面getList返回的是一个Promise对象,这样await就会等待Promise返回值,而Promise通过resolve(成功时)
和reject(失败时)
这两个参数传递数据。
再次执行index.js
得到正常的结果。值得注意的是,必须使用node7.1以后的版本才能使用async/await,另外await必须在async修饰的函数内使用,多一层嵌套都不能使用await(除非嵌套的函数也是async修饰)这是我练习时踩的坑!都是泪