puppeteer小说爬虫(1)--配置环境

        最近想找几本小说来看看,确实是有很多网站可以找到,但是无奈广告巨多,提供的下载链接还。。。说多都是泪啊。既然你不仁,就没办法了。只有通过爬虫来爬了你啦。

puppeteer是谷歌发布的NodeJs库。通过DevTools Protocol用于控制chrome或者chromium,里面提供了高级API,默认以无头浏览器的方式启动。

puppeteer API文档在这里可以查找

        puppeteer这个工具,个人觉得不错,配置简单方便。ok,就此决定是你啦。下面介绍小说爬虫工具的平生吧。。。

1.安装nodejs(LTS版本就好了)

#ubuntu
下载完成后是一个压缩包,直接解压到自己想放的位置去。这里我直接放到了$HOME文件夹中。然后配置下链接就可以使用了。

tar xvJf node-v8.11.3-linux-x64.tar.xz -C ~/
cd ~/node-v8.11.3-linux-x64/bin
sudo ln -s node /usr/bin/node
sudo ln -s npm /usr/bin/npm

#windows
windows可以选择下载的包有有msi和zip,随便选一个下载。msi直接安装在C盘就ok(毕竟是命令工具),zip包也建议解压到C盘目录。
这里建议是(C:\Program Files (x86)\nodejs\)。msi文件的安装可以选择加入环境变量,但是zip包还需要自己配置,具体配置方法请搜索环境变量配置方法,把bin里面的 node 和 npm 执行文件的目录加入PATH中。

以上步骤完成后,请打开终端测试(windows 系统:win+R 输入CMD回车)

输入命令 
node -v

输出 v8.11.3(这是版本号)就ok了。

2安装puppeteer

命令行执行
npm i puppeteer --save -g

        安装过程可能会下载chromium。如果下载失败请搜索 cnpm。下载完成后未必可以马上使用,坑爹的npm有可能会把包放到了一个node找不到的位置去。这时候需要为刚才下载的包配置下环境变量(至少我在windows上需要,下载到的目录是:C:\Users\你的用户名\AppData\Roaming\npm\node_modules 加入环境变量中)。ok至此环境已经完全搞定。赶紧试下怎么用。

3使用puppeteer

新建一个 hello.js文件

/*加载puppeteer库*/
const puppeteer = require('puppeteer');

/*定义一个异步函数执行*/
(async ()=> {

    //创建一个浏览器
    var browser = await puppeteer.launch({
                headless:false, //是否以无头模式运行
            }).catch(ex => {            
                console.log(ex);                                
            });

    if (!browser) {
        console.log('browser launch failed!');
        return;
    }

    //创建一个新页面
    var page = await browser.newPage().catch(ex=>{
            console.log(ex);
        });

    if (!page) {
        console.log('fail to open page!');
        browser.close().catch(e=>{});
        return;
    }

    var respond = await page.goto("http://www.baidu.com/", {
                'waitUntil':'domcontentloaded',
                'timeout':120000
            }).catch(ex=>{              
                console.log(ex);
            });

    if (!respond) { 
        console.log('fail to goto website!');   
        browser.close().catch(e=>{});
        return;
    }

})()

然后到文件目录下打开终端,执行

node hello.js

成功打开浏览器即成功!!
恭喜,迈向了成功的一步了。

下一篇将讲解爬取小说的基本逻辑

puppeteer小说爬虫(2)--基本逻辑

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 198,932评论 5 466
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,554评论 2 375
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 145,894评论 0 328
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,442评论 1 268
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,347评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 47,899评论 1 275
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,325评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,980评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,196评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,163评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,085评论 1 328
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,826评论 3 316
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,389评论 3 302
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,501评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,753评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,171评论 2 344
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,616评论 2 339

推荐阅读更多精彩内容