Puppeteer-无头浏览器简介

Puppeteer是什么

Puppeteer 是一个 Node 库,它提供了高级的 API 并通过 DevTools 协议来控制 Chrome(或Chromium)。通俗来说就是一个 headless chrome 浏览器 (也可以配置成有 UI 的,默认是没有的)


image

Puppeteer 的 Logo 很形象,顾名思义像是一个被操控的傀儡、提线木偶

Puppeteer结构

image
  • Puppeteer 使用 DevTools 协议 与浏览器进行通信
  • Browser 实例可以拥有浏览器上下文
  • BrowserContext 实例定义了一个浏览会话并可拥有多个页面、
  • Page 至少有一个主框架(main frame)。 可能还有其他框架由 iframe 或 frame 创建
  • frame 至少有一个执行上下文(默认的执行JavaScript的上下文)。框架可能有额外的与扩展关联的执行上下文
  • Worker 具有单一执行上下文,以便于和 WebWorkers 交互

Puppeteer能做什么

  • 生成网页截图或者 PDF
  • 抓取单页应用(SPA)执行并渲染
  • 做表单的自动提交、UI的自动化测试、模拟键盘输入等
  • 用浏览器自带的一些调试工具和性能分析工具帮助我们分析问题
  • 在最新的无头浏览器环境里做测试、使用最新浏览器特性

安装

npm i puppeteer -S

默认会下载一个最新版本的Chromium,也可以通过一些配置跳过下载,此时需要配置启动参数 executablePath 来指定 Chromium 的位置。下载失败可以参考 Github Issue,或者使用如下方法快速安装

npm config set puppeteer_download_host=https://npm.taobao.org/mirrors
npm i puppeteer -S

如果 Mac 下下载时出现 mkdir 的权限问题,可以添加安装参数解决

sudo npm i puppeteer -S --unsafe-perm=true --allow-root

或者安装 puppeteer-cn

npm i puppeteer-cn -S

使用示例

最简单的例子,打开百度并关闭

const browser = await puppeteer.launch({
    headless: false  // 关闭无头模式
});

const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await browser.close();

打开百度,截图&生产PDF,然后关闭

const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await page.screenshot({path: 'baidu.png'});
// 目前只能在无头模式下生成pdf **https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagepdfoptions*

await page.pdf({path: 'baidu.pdf'})await browser.close();

在打开的页面里执行JS并返回结果

const browser = await puppeteer.launch({headless: false});
const page = await browser.newPage();
await page.goto('https://www.trip.com/m/');
const dimensions = await page.evaluate(() => {
  return {
    width: document.documentElement.clientWidth,
    height: document.documentElement.clientHeight,
    deviceScaleFactor: window.devicePixelRatio
  }
});
console.log('Dimensions:', dimensions);
await browser.close();

监听 ​console​,你会看到熟悉的百度招聘的硬广

const browser = await puppeteer.launch();
const page = await browser.newPage();
page.on('console', msg => console.log(msg.type(), msg.text()));
await page.goto('https://www.baidu.com/');
await browser.close();

设置窗体尺寸

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
// 模拟iPhone6的尺寸打开
await page.setViewport({
  width: 375,
  height: 667
});
await page.goto('https://www.trip.com/m/');

Performance Trace 性能数据捕获,之后将 ​trace.json​ 导入 DevTools -> Performance 即可查看

const browser = await puppeteer.launch({
    headless: false
});
const page = await browser.newPage();
// 设置数据文件,并包含截图
await page.tracing.start({
    path: 'trace.json',
    screenshots: true
});
await page.goto('https://www.trip.com');
await page.tracing.stop();
await browser.close();

模拟表单提交,以 http://Trip.com 首页为例,需要先注册账号并替换,祝你好运不要遇上验证码

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
await page.goto('https://www.trip.com/account/signin?');
await page.waitForSelector('#userName');
await page.focus('#userName');
await page.waitFor(500);
await page.type('#userName', 'your account', {delay: 100});
await page.focus('#txtPassword');
await page.waitFor(500);
await page.type('#txtPassword', 'your password', {delay: 100});
await page.waitFor(500);
await page.click('#btnSubmitData')

爬取豆瓣电影的搜索列表,Document 里返回的是加密的数据 ​window.DATA​,套路是在前端JS解密

const search_text = '漫威';
const size = 15; // 每页搜索结果数
let start = 0; // 起始pageconst 
browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
const crawlMovies = async () => {
  await page.goto(`https://movie.douban.com/subject_search?search_text=${encodeURIComponent(search_text)}&start=${start * size}`, {waitUntil: 'domcontentloaded'})
  console.log(`crawling page ${start + 1}...`);
  // page.evaluate 里的 currentStart 参数需要传进去,不能直接使用外部参数
  let result = await page.evaluate((currentStart) => {
    // 获取该页所有电影标题
    let list = Array.from(document.querySelectorAll('.detail')).map((item) => {
      return item.querySelector('.title a').innerHTML;
    });
    // 判断是否是最后一页,作为递归退出的条件
    let maxStart = Math.max.apply(null, Array.from(document.querySelectorAll('.paginator a')).map((item) => {
      let startNum = 0;
      try {
        startNum = item.getAttribute('href').match(/\d+$/)[0];
      } catch (e) {
      }
      return startNum;
    }))
    return {
      list: list,
      isEnd: currentStart > maxStart
    }
  }, start * size);
  if (result.isEnd) {
    return result.list;
  }
  start += 1;
  return result.list.concat((await crawlMovies()))
}
const movieList = await crawlMovies();
console.log(JSON.stringify(movieList, null, 2))

简而言之

Puppeteer 是一个无头浏览器,可以更方便的做一些其他无头浏览器能做事情,以上例子简单的介绍了他的基本用法,详细的 API 在官方文档里也有,就简单介绍到此

参考链接

文档地址

实用工具,在线操作puppeteer,直观看效果。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容