React Native 网页抓取与解析（基于 cheerio）

如果你打算用 RN 写某网站的第三方 App，但该网站不提供可以返回 JSON 的接口，这种情况下就需要自己进行页面抓取及解析。

首先，我们需要明确一件事，RN 既不是 browser 也不是 node，这意味着有些 js 库是不能直接拿来用的。

HTTP 请求

RN 提供了 Fetch API 和 XMLHttpRequest API，基于这两个库的二次封装库也是可以用的，比如 frisbee 和 axios，所以在 RN 下进行 HTTP 请求不是什么问题。

HTML 解析

当前，最好用的 js html parser 应属 cheerio，是否可以在 RN 使用呢？让我们试试。

首先，安装 cherrio（注意，一定是要 v0.22.0，后面解释）：

$ npm i cheerio@0.22.0

使用：

import cheerio from 'cheerio'
const $ = cheerio.load('<h2 class="title">Hello world</h2>')

很不幸，出现了错误：

error: bundling failed: "Unable to resolve module `events`

这是因为 cheerio 的依赖 htmlparser2 依赖一些 node 内置的库。不过这是可以被解决的，理论上，只要这些依赖库不依赖更底层的接口，那么就可以通过 npm 安装上这些依赖：

$ npm i events stream buffer

再次刷新，我们发现 cheerio 已经可以正常使用了！

其实这个问题有在 cheerio 的 issues 上讨论过：https://github.com/cheeriojs/cheerio/issues/1058。有人为了解决这个问题弄了另外一个库 cheerio-without-node-native，然而这种做法不仅没有必要而且非常糟糕，因为这个分裂出去的版本的质量是难以保证的。作者的观点是：

You can install the missing packages from npm (events, stream and utils afaict) and they will be automatically picked up.

I would not recommend the usage of a fork as it will make it difficult to track down issues and will delay, if not prevent, patches for bugs.

至于为什么只能用 cheerio@0.22.0，是因为之后的版本，cheerio 引入了 parse5，而 parse5 依赖 stream.Writable，npm 安装的 stream 并不提供。

测试

由于网页随时可能发生变化，测试就显得尤为重要。这里我以一段获取简书用户数据的代码为例，做一个简单的黑箱测试。

// api.js
// 这里，我实现了一个 getUserData 函数，以 UserID 为参数，
// 获取个人主页数据，并解析出用户头像链接、用户昵称、发表的文章
async function getUserData(user) {
  const response = await fetch('http://www.jianshu.com/u/' + user)
  const $ = cheerio.load(await response.text())
  return {
    avatar: 'http:' + $('.avatar img').attr('src'),
    name: $('.title .name').text(),
    articles: $('.note-list li').map(function () {
      return {
        title: $('.title', this).text(),
      }
    }).get()
  }
}

export {getUserData}

为了能在 node 环境下使用 fetch，需要安装 node-fetch。RN 已经默认安装了 jest，我们就用它来测试吧：

// __test__/api.js
// 测试 getUserData 是否能正常运行，并返回预期的结果
// 这里为了更真实的模拟实际情况，而用 node-fetch 模拟了 RN 里的 fetch
// 也可以 mock fetch 然后返回预设的测试数据
import {getUserData} from '../api'
global.fetch = require('node-fetch')

test('getUserData', async () => {
  const data = await getUserData('3747663284a0')
  expect(data.name).toBe('7c00')
  expect(data.avatar).toMatch(/http:\/\/upload\.jianshu\.io\/users\/upload_avatars.*\.jpg/)
  data.articles.forEach(article => expect(article.title).not.toBeNull())
  console.log(data)
})

运行测试：

$ npm test

npm test

另一种获取网页数据的黑科技

除了传统的 HTML 请求解析，在某些情况下我们还可以用类似 PhantomJS 的方案，优点是可以很好地避开一些限制，降低解析难度。RN 里当然用不了 PhantomJS，但我们有 WebView，可以通过 injectedJavaScript 注入 js，用 postMessage 回传数据，比如这段用于获取页面中视频链接的代码：

<WebView
  injectedJavaScript={`
    const video = document.querySelector('video');
    if (video) {
      postMessage(video.src);
    }
  `}
  onMessage={event => this._loaded(event.nativeEvent.data)}
  source={{
    uri: this.state.webViewUrl,
    headers: {
      referer: 'https://newplayer.jfrft.com',
    }
  }}
/>

PS. 慎用该方法，首先是 WebView 消耗资源太大，其次是难以测试，缺乏稳定性。

最后编辑于：2017.12.10 09:59:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,214评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,307评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,543评论 0赞 341
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,221评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,224评论 5赞 371
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,007评论 1赞 284
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,313评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,956评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,441评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,925评论 2赞 323
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,018评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,685评论 4赞 322
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,234评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,240评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,464评论 1赞 261
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,467评论 2赞 352
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,762评论 2赞 345

React Native 网页抓取与解析（基于 cheerio）

HTTP 请求

HTML 解析

测试

另一种获取网页数据的黑科技

推荐阅读更多精彩内容