程序需要存储变量中的值,并且能在之后对这个值进行访问或修改。这些变量存储在哪里?程序如何找到他们?这些问题需要一套设计良好的规则来存储变量,并且之后可以方便地找到这些变量,这套规则被称为作用域。
1.1编译原理
传统编译语言的流程
- 分词/词法分析(Tokenizing/Lexing):这个过程将由字符组成的字符串分解成有意义的代码块,这些代码块被称为词法单元(token)。如
var a = 2;
。这段程序被分解为下面这些词法单元:var
,a
,=2
,;
空格是否会被当做词法单元,取决于空格在这门语言中是否具有意义。 - 解析/语法分析(Parsing):这个过程是将词法单元流(数组)转换成一个由元素逐级嵌套所组成的代表了程序语法结构的树。这个树被称为“抽象语法树”(Abstract Syntax Tree,AST)。
- 代码生成:将AST转换为可执行代码的过程被称为代码生成。这个过程与语言、目标平台息息相关。简单来说,就是由某中方法可以将
var a = 2;
的AST转化为一组机器指令,用来创建一个叫做a
的变量(包括分配内存等),并将一个值存储在a
中
比起这些编译过程只有三个步骤的编译器,js引擎要复杂的多。
首先,js引擎不会由大量的时间来进行优化,因为与其他语言不同,js的编译不是发生在构建之前。
对js来说,大部分情况下编译发生在代码执行前的几微秒的时间内。
1.2理解作用域
当你看见var a = 2;
这段程序的时候以为这是一句声明,但这是由两个完全不同的声明组成,一个由编译器在编译时处理,另一个则由引擎在运行时处理。
分解:
- 遇到
var a
,编译器会询问作用域是否已经有一个该名称的变量存在与同一个作用域的集合中。如果是,编译器会忽略该声明,继续进行编译;否则它会要求作用域在当前作用域的集合中声明一个新的变量,并命名为a
。 - 接下来编译器会为引擎生成运行时所需的代码,这些代码被用来处理
a = 2
这个赋值操作。引擎运行时会首先询问作用域,在当前的作用域集合中是否存在一个叫a
的变量。如果是,引擎就会使用这个变量,如果不是,引擎会继续查找该变量。如果引擎最终找到了a
变量,那么就会将2
赋值给它,否则引擎就会抛出异常。
1.2.1 LHS 和 RHS
- LHS:赋值操作的左边,试图找到变量容器本身,从而可以对其赋值。
- RHS:赋值操作的右边,寻找赋值操作的源值,得到某个值
console.log(a);
这段代码中对a
的引用是一个RHS引用,因为这里a
并没有赋予任何值,相应的需要查找并取得a
的值,这样才能传递给console.log(...)
。
function foo(a){
console.log(a);
}
foo(2);
上面的代码既有LHS引用也有RHS引用:
对a
执行RHS引用,并且将得到的值传递给console.log(...)
、console.log(...)
本身也需要一个引用才能执行,因此会对console
对象进行RHS查询,并检查得到的值中是否有一个叫log
的方法。假设log
方法的原生实现中可以接受参数,在将2赋值给其中第一个参数之前,这个参数需要进行LHS引用查询。
1.2.2 引擎和作用域的对话
function foo(a){
console.log(a);
}
foo(2);//2
对话如下:
引擎:作用域,我需要为foo
进行RHS引用,你见过它吗?
作用域:别说,我还真见过,编译器那小子刚刚声明了它。它是一个函数,给你。
引擎:哥们太够意思了!好吧,我来执行一下foo
。
引擎:作用域,还有个事儿。我需要为a
进行LHS引用,这个你见过吗?
作用域:这个也见过,编译器最近把它声明为foo
的要一个形式参数了,拿去吧。
引擎:大恩不言谢,你总是这么棒。现在我要把2
赋值给a
。
引擎:哥们,不好意思又来打扰你。我要为console
进行RHS引用,你见过它吗?
作用域:咱两谁跟谁啊,再说我就是干这个的。这个我也有,console
是内置对象,给你。
引擎:么么哒,我得看看这里面是不是有log(...)
。太好了,找到了,是一个函数
引擎:哥们,能帮我再找一下a
的RHS引用吗?虽然我记得它,但想再确认一次。
作用域:放心吧,这个变量没有变动过,拿走,不谢。
引擎:真棒, 我来把a
的值,也就是2,传递进log(...)
。
1.3作用域嵌套
当一个块或者函数嵌套在另一个块或者函数中时,就发生了作用域嵌套。因此,在当前作用域中无法找到某个变量时,引擎就会在外层嵌套的作用域中继续查找,直到找到该变量,或者抵达最外层的作用域(也就是全局作用域)为止。
LHS和RHS引用都会在当前作用域查找,如果没有找到,就会继续向上一层作用域查找,一旦抵达顶层(全局作用域), 无论如何查找过程都将停止,如果找到了,将使用该变量,如果没有找到,抛出一个错误异常。
1.4 异常
为什么区分LHS和RHS?
因为在变量还没有声明的情况下,这两种查询的行为是不一样的。
function foo(a){
console.log(a+b);
b = a;
}
foo(2);
分析上面的代码,第一次进行RHS查询时是无法找到变量b
的。如果RHS查询在所有嵌套的作用域中遍寻不到所需的变量,引擎就会抛出一个ReferenceError
异常。
相较之下,当引擎在执行LHS查询时,如果再顶层(全局作用域)中也无法找到目标变量,就会在全局作用域中创建一个具有该名称的变量,并将其返回给引擎,前提是在非“严格模式”下。
“不,这个变量之前并不存在,但是我很热心的帮你创建了一个”
ES5中引入了“严格模式”。同正常模式相比,严格模式禁止自动或隐式地创建全局变量。因此在严格模式中LHS查询失败时,并不会创建并返回一个全局变量,引擎会抛出同RHS查询失败时类似的 ReferenceError
异常。
如果RHS查询到了一个变量,但是你尝试对这个变量进行不合理的操作,比如对一个非函数类型的值进行函数调用,或者引用null
或undefined
类型的值中的属性,那么引擎会抛出另外一种类型的异常,叫TypeError
。
ReferenceError
同作用域判别失败相关,而TypeError
则代表作用域判别成功了,但是对结果的操作是非法或不合理的。
小结
作用域是一套规则,用于确定在何处以及如何查找变量(标识符)。如果查找的目的是对变量进行赋值,那么就会使用LHS查询;如果目的是获取变量的值,就会使用RHS查询。
赋值操作符会导致LHS查询。=
操作符或调用函数时传入参数的操作都会导致关联作用域的赋值操作。
JavaScript引擎会在代码执行前对其进行编译,这个过程中,像var a = 2;
这样的声明会被分解成两个独立的步骤:
-
var a
在其作用域中声明新的变量。这会在最开始的阶段,也就是代码执行前进行。 -
a = 2
会查询(LHS查询)变量a
并对其进行赋值。
LHS 和 RHS 查询都会在当前执行作用域中开始,如果有需要(也就是说它们没有找到所需的标识符),就会向上级作用域继续查找目标标识符,这样每次上升一级作用域(一层楼),最后抵达全局作用域(顶层),无论找到或没找到都将停止。
不成功的 RHS 引用会导致抛出 ReferenceError
异常。不成功的 LHS 引用会导致自动隐式地创建一个全局变量(非严格模式下),该变量使用 LHS 引用的目标作为标识符,或者抛出 ReferenceError
异常(严格模式下)。