Python爬虫:更加优雅的执行JavaScript(PyV8)

这个周末,会不会收到你的礼物

大家好，我又来填坑了。这次以今日头条作为样例。作为补偿，今日头条App下载量+1。
只要你开始写爬虫了，或早或晚的你都会去接触到JavaScript。然后等你爬虫做久了，你就会成为你个资深的前端开发工程师。
在之前的文章中提过，在定向爬虫中极其不推荐使用selenium，速度太慢。那对于JavaScript总要有个解决方案，速度相对快的解决方案有两个：

将js代码翻译成python。严肃别笑，这是可行的，在js混淆不盛行的时候我真的这么干过。
- 第一你要非常有时间，毕竟你可能对js不熟。但JavaScript是每个前端工程，啊呸，爬虫工程师绕不过的南墙。
- 在js混淆盛行的现在，反正我是不会选这个方法，你选你大佬，你可以站在爬虫鄙视链的顶端。
略微分析，直接去执行有效的js代码，取得你想要的结果。
- 为什么说有效，因为现在的js里会混淆大量无效干扰你的js，比如极验。

JavaScript的执行需要js引擎，于是引入今天的主角PyV8。

Google V8 is Google’s open source JavaScript engine.
V8 is written in C++ and is used in Google Chrome, the open source browser from Google.
V8 implements ECMAScript as specified in ECMA-262, 3rd edition, and runs on Windows XP and Vista, Mac OS X 10.5 (Leopard), and Linux systems that use IA-32 or ARM processors.
V8 can run standalone, or can be embedded into any C++ application.

PyV8的安装：

pip install pyv8

如果顺利的话就可以进行下面的步骤了，如果报错就需要根据你们自身的系统去谷歌一下解决方案，windows直接有.exe安装程序。Linux与MacOS需要安装对应依赖，在这不赘述，相信大家的找资料能力，实在解决不了可以私聊我，乐意效劳。

PyV8的使用：

最好的文档肯定是官方文档，这里仅能给出几个我常用的，以及一些我的使用心得，以防大家踩坑。
import PyV8注意大小写。

PyV8.JSContext() 创建JSContext对象，因为有`enter()`方法，可以这样用

with PyV8.JSContext() as ctxt:

接下来就使用ctxt来执行js脚本，其使用方法多半有两种，涉及的关键属性是locals：

locals
Local variables within context

与JavaScript中变量交互（使用最多）：

获得JavaScript中变量

import PyV8
with PyV8.JSContext() as ctxt:
    ctxt.eval("""
                var_ex1 = 1;
                var_ex2 = 1.0;
                var_ex3 = "test";
                var_ex4 = true;
            """)
    vars = ctxt.locals
    var_ex1 = vars.var_ex1
    print var_ex1

传入python中变量

import PyV8
with PyV8.JSContext() as ctxt:
    ctxt.locals.test = 12
    print int(ctxt.eval("test"))

与JavaScript中函数交互：

#把Enc绑定到js中的Enc方法
Enc = ctxt.locals.Enc
#执行Enc方法，传入python的参数：params，_deskey,用python接受返回值
str = Enc(params, _deskey, '', '')

其实大家也都看出来了，差别不大，其中核心目的都是为了执行JavaScript代码，写成哪种风格就纯属个人喜好了。

PyV8.JSLocker() 值得注意的是PyV8并非是线程安全的，因此在多线程环境下要加入全局锁。

下面的代码也是第一点的另一种写法，显式的enter与退出，想必一看就懂。
```
ctxt = PyV8.JSContext()
with PyV8.JSLocker():
    self.ctxt.enter()
    vl5x = self.ctxt.eval(js) 
    self.ctxt.leave()
```

PyV8的实战：

那说了不少，真正在爬虫中应该怎么用？下面给出本文福利，实战今日头条(破解反爬关键参数)。
今日头条在一两个月前的更新中，在url中加入一个参数_signature，该参数是将参数user_id传入js后执行回传的。
经过你的一番令人折服的操作（抓包、断点调试js），这是爬虫基本功，就不一个步骤一个步骤贴详细过程了。
你找到目标js的地址：https://s3.pstatp.com/toutiao/resource/ntoutiao_web/page/profile/index_8f8a2fb.js（抓包）
并分析出里面的的有效函数（断点调试js）
user_id对你又是可见的。于是皆大欢喜，下面就可以实现计算_signature的代码了。

def get_signature(self,user_id):
   """
   计算_signature    
   :param user_id: user_id不需要计算，对用户可见
   :return: _signature
   """
   req = requests.Session()
   # js获取目的
   jsurl = 'https://s3.pstatp.com/toutiao/resource/ntoutiao_web/page/profile/index_8f8a2fb.js'
   resp = req.get(jsurl,headers = self.headers)
   js =  resp.content
   effect_js = js.split("Function")
   js = 'var navigator = {};\
           navigator["userAgent"] = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36";\
        ' +  "Function" + effect_js[3] + 
             "Function" + effect_js[4] + 
        ";function result(){ return TAC.sign(" + user_id + ");} result();"
   # PyV8执行步骤
   with PyV8.JSLocker():
      self.ctxt.enter()  #已在上面初始化过
      vl5x = self.ctxt.eval(js) 
      self.ctxt.leave()
   self.LOG.info("圣诞快乐")

   return vl5x

至此完成。将参数加上，就可以按照正常逻辑爬取今日头条了。
祝你早日成长为一个优秀的前端工程师，最后周末愉快~