Puppeteer-无头浏览器简介

Puppeteer是什么

Puppeteer 是一个 Node 库，它提供了高级的 API 并通过 DevTools 协议来控制 Chrome(或Chromium)。通俗来说就是一个 headless chrome 浏览器 (也可以配置成有 UI 的，默认是没有的)

image

Puppeteer 的 Logo 很形象，顾名思义像是一个被操控的傀儡、提线木偶

Puppeteer结构

image

Puppeteer 使用 DevTools 协议与浏览器进行通信
Browser 实例可以拥有浏览器上下文
BrowserContext 实例定义了一个浏览会话并可拥有多个页面、
Page 至少有一个主框架(main frame)。可能还有其他框架由 iframe 或 frame 创建
frame 至少有一个执行上下文(默认的执行JavaScript的上下文)。框架可能有额外的与扩展关联的执行上下文
Worker 具有单一执行上下文，以便于和 WebWorkers 交互

Puppeteer能做什么

生成网页截图或者 PDF
抓取单页应用(SPA)执行并渲染
做表单的自动提交、UI的自动化测试、模拟键盘输入等
用浏览器自带的一些调试工具和性能分析工具帮助我们分析问题
在最新的无头浏览器环境里做测试、使用最新浏览器特性

安装

npm i puppeteer -S

默认会下载一个最新版本的Chromium，也可以通过一些配置跳过下载，此时需要配置启动参数 executablePath 来指定 Chromium 的位置。下载失败可以参考 Github Issue，或者使用如下方法快速安装

npm config set puppeteer_download_host=https://npm.taobao.org/mirrors
npm i puppeteer -S

如果 Mac 下下载时出现 mkdir 的权限问题，可以添加安装参数解决

sudo npm i puppeteer -S --unsafe-perm=true --allow-root

或者安装 puppeteer-cn

npm i puppeteer-cn -S

使用示例

最简单的例子，打开百度并关闭

const browser = await puppeteer.launch({
    headless: false  // 关闭无头模式
});

const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await browser.close();

打开百度，截图&生产PDF，然后关闭

const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await page.screenshot({path: 'baidu.png'});
// 目前只能在无头模式下生成pdf **https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagepdfoptions*

await page.pdf({path: 'baidu.pdf'})await browser.close();

在打开的页面里执行JS并返回结果

const browser = await puppeteer.launch({headless: false});
const page = await browser.newPage();
await page.goto('https://www.trip.com/m/');
const dimensions = await page.evaluate(() => {
  return {
    width: document.documentElement.clientWidth,
    height: document.documentElement.clientHeight,
    deviceScaleFactor: window.devicePixelRatio
  }
});
console.log('Dimensions:', dimensions);
await browser.close();

监听 console，你会看到熟悉的百度招聘的硬广

const browser = await puppeteer.launch();
const page = await browser.newPage();
page.on('console', msg => console.log(msg.type(), msg.text()));
await page.goto('https://www.baidu.com/');
await browser.close();

设置窗体尺寸

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
// 模拟iPhone6的尺寸打开
await page.setViewport({
  width: 375,
  height: 667
});
await page.goto('https://www.trip.com/m/');

Performance Trace 性能数据捕获，之后将 trace.json 导入 DevTools -> Performance 即可查看

const browser = await puppeteer.launch({
    headless: false
});
const page = await browser.newPage();
// 设置数据文件，并包含截图
await page.tracing.start({
    path: 'trace.json',
    screenshots: true
});
await page.goto('https://www.trip.com');
await page.tracing.stop();
await browser.close();

模拟表单提交，以 http://Trip.com 首页为例，需要先注册账号并替换，祝你好运不要遇上验证码

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
await page.goto('https://www.trip.com/account/signin?');
await page.waitForSelector('#userName');
await page.focus('#userName');
await page.waitFor(500);
await page.type('#userName', 'your account', {delay: 100});
await page.focus('#txtPassword');
await page.waitFor(500);
await page.type('#txtPassword', 'your password', {delay: 100});
await page.waitFor(500);
await page.click('#btnSubmitData')

爬取豆瓣电影的搜索列表，Document 里返回的是加密的数据 window.DATA，套路是在前端JS解密

const search_text = '漫威';
const size = 15; // 每页搜索结果数
let start = 0; // 起始pageconst 
browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
const crawlMovies = async () => {
  await page.goto(`https://movie.douban.com/subject_search?search_text=${encodeURIComponent(search_text)}&start=${start * size}`, {waitUntil: 'domcontentloaded'})
  console.log(`crawling page ${start + 1}...`);
  // page.evaluate 里的 currentStart 参数需要传进去，不能直接使用外部参数
  let result = await page.evaluate((currentStart) => {
    // 获取该页所有电影标题
    let list = Array.from(document.querySelectorAll('.detail')).map((item) => {
      return item.querySelector('.title a').innerHTML;
    });
    // 判断是否是最后一页，作为递归退出的条件
    let maxStart = Math.max.apply(null, Array.from(document.querySelectorAll('.paginator a')).map((item) => {
      let startNum = 0;
      try {
        startNum = item.getAttribute('href').match(/\d+$/)[0];
      } catch (e) {
      }
      return startNum;
    }))
    return {
      list: list,
      isEnd: currentStart > maxStart
    }
  }, start * size);
  if (result.isEnd) {
    return result.list;
  }
  start += 1;
  return result.list.concat((await crawlMovies()))
}
const movieList = await crawlMovies();
console.log(JSON.stringify(movieList, null, 2))

简而言之

Puppeteer 是一个无头浏览器，可以更方便的做一些其他无头浏览器能做事情，以上例子简单的介绍了他的基本用法，详细的 API 在官方文档里也有，就简单介绍到此

参考链接

文档地址

实用工具，在线操作puppeteer，直观看效果。

最后编辑于：2019.04.11 18:32:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343