没有引发任何行动的思想都不是思想,而是梦想。 — 马丁
写在前面
在正式讲解之前,我们先认识一下他们:
- JVM:Java Virtual Machine的简写,Java语言解释器,俗称虚拟机,负责内存的分配(堆栈分配),回收(GC),解析class为硬件运行的机器码。
- JMM:Java Memory Model的简写,Java内存模型,定义了JVM(Java虚拟机)在计算机内存(RAM)中的工作方式,线程之间内存刷新的状态,是隶属于JVM的。
简单点说,JVM可以理解为Java执行的操作系统,而JMM就是这个操作系统的内存模型。
Java内存模型
- 内存主要分为5块,分别为:堆,方法区,程序计数器,本地方法栈,虚拟机栈。
- 其中堆和方法区这两块的内存是共享的。程序计数器,本地方法栈和虚拟机栈这三块的内存加起来就组合成了线程栈,我们都知道Java内存被分为堆内存和栈内存,这里的栈内存就是线程栈,每个线程都有一个线程栈,可想而知线程栈是私有的,一个进程的内存中随着线程数量的增加,就会有多个线程栈出现,一个线程对应一个线程栈。
- 堆(Heap):是内存中最大的一块,被线程共享,用来存放对象实例。堆如果要细分的话还可以细分为新生代和老年代两部分,新生代还可以再细分为Eden,From Survivor,To Survivor。因为GC自动回收机制就是回收的堆内存,所以划分的这么清楚就是为了提高内存的回收效率。
- 方法区:是线程共享的,也是线程安全的。用来存储已经被虚拟机加载的类信息,常量,静态变量,以及即时编译器编译后的代码数据,常量池和静态池也在方法区中。
- 程序计数器:是内存中最小的一块。它可以被看作是当前线程所执行的字节码的行号指示器,在虚拟机的概念模型中,字节码执行器在工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令,分支,跳转,循环,异常处理,线程恢复等基本功能都是依赖计数器来完成的。
- 本地方法栈:Native Method 原生方法是Java调用非Java方法接口,方法的实现也是非Java方法的实现,比如C或C++。有一点需要注意,调用非Java接口也会涉及GC和OOM。
- Java虚拟机栈:线程私有的,生命周期和线程一样。虚拟机栈描述的是方法执行时的内存模型,每个方法执行的时候同时会创建一个栈帧,用来存放局部变量表,操作数栈,动态链接,方法出口等信息。
基本类型数据和引用类型数据的存储位置
上文了解到Java的内存模型,现在就通过一道很经典的面试题来演练一下。
Q:Java的基本类型数据一定存储在栈内存中。
针对这个问题我们做具体分析:
- 声明在方法中的变量 - 局部变量
基本类型数据:变量名和变量值都在栈内存中。
引用类型数据:变量名在栈内存中,变量值在堆内存中。 - 声明在类中的变量 - 全局变量
基本类型数据:变量名和变量值都在堆内存中。
引用类型数据:变量名和变量值都在堆内存中。
public class Test {
// 声明在类中的基本类型数据,变量名和变量值都在堆内存中
private int i = 1;
// 声明在类中的引用类型数据,变量名和变量值都在堆内存中
private Integer integer = new Integer(1);
public void doing() {
// 声明在方法中的基本类型数据,变量名和变量值都在栈内存中
int i = 1;
// 声明在方法中的引用类型数据,变量名在栈内存中,变量值在堆内存中
Integer integer = new Integer(1);
......
}
}
通过以上分析得知,数据存储在堆内存中还是栈内存中,取决于类型声明在何处。所以Java的基本类型数据一定存储在栈内存中是错误的。
Java内部的数据传递
首先看下栈,栈是个统称,栈的内部还可以再去细分, 这里不做过多讲解,我们只要知道栈是单个线程私有的,多个线程工作,就会在内存中存在多个栈内存区域。
如下图:
现在来看线程的数据处理流程,首先声明这里的数据指的是引用类型数据,习惯上我们把堆内存叫做主内存,数据的处理流程可以分三步:
- Thread对象把要处理的对象从主内存中Copy一份到当前线程的栈内存中。
- 假如操作耗时2秒,那么2秒后更新当前线程的栈内存中的这个对象的数据副本。
- 最后把当前线程的栈内存中的这个对象的数据副本写回主内存中,我们称之为“刷新到主内存”。
如下图:
线程的数据处理流程和我们之前的想法可能有些出入,并不是直接读写堆内存中所在的数据,而是线程自己将数据Copy一份单独处理,拿到结果后再刷新到主内存。
有两个线程Thread 1和Thread 2,Thread 1处理某个数据,Thread 2也同时处理这个数据,那么这两个线程同时往主内存中刷新数据,那么主内存中的这个数据应该是哪个线程的结果呢?再者Thread 1和Thread 2前后往主内存中刷新数据,那么结果也是差不多的,Thread 1先执行,Thread 2执行在Thread 1结果的基础上,二者其实操作的是同一个数据,即使两个线程前后往主内存中刷新数据,结果也不是我们预期的。
举个例子:主内存中有一个变量 dog = 1,Thread 1想要dog += 1,Thread 2想要dog += 2, 我们想要先执行Thread 1得到 dog = 2,在执行Thread 2得到dog = 4。那么实际执行的结果如何呢,因为Thread 1和Thread 2从主内存中Copy的是同一个数据dog = 1,两个线程都是在dog = 1的基础上处理数据,所以最终执行的结果是Thread 2的结果dog = 3。
以上就是我们在多线程中面临的问题,怎样保持堆内存中的数据和栈内存中的数据副本相同,这就需要Java的多线程的同步机制来解决了。
硬件层面的数据模型
Java的内存模型不仅收到Java底层的影响,更是受到硬件影响。
下面是简化的现代计算机硬件结构图:
现在计算机的CPU都有多个核心,每个核心都有自己的寄存器和高速缓存器。
如下图:
- 每个CPU都有一系列的寄存器registers。上图中L1 Cache一级缓存虽然容量小,但是因为CPU直接从这里读写数据所以速度非常快,L2 Cache二级缓存可以被两个Core共享,L3 Cache三级缓存是可以被全部Core所共享的内存区域,距离CPU越远的缓存访问速度降低同时容量增加。
- 寄存器:每个CPU的内存中都有一系列的寄存器registers在CPU的内存中,而且这些寄存器是非常重要的。CPU在寄存器上进行计算操作要比在内存中进行计算操作快的多,这是因为CPU访问寄存器的速度比访问内存的速度要快。
- 高速缓存器:每个CPU都会有一个CPU的Cache内存,CPU访问Cache内存的速度要比访问内存的速度快,但会比访问寄存器的速度慢一些,所以访问Cache内存的速度是介于寄存器和内存之间的。一些CPU还有多级缓存,但是这无助于我们理解Java内存模型,我们只要知道CPU有三层内存结构:寄存器(Registers) - 高速缓存器(Cache Memory) - 内存(RAM)。
CPU在处理对象时和线程一样会从主内存中Copy一份到Cache内存中,Cache内存在修改完这个对象的数据副本再刷新到主内存。
我们可以把CPU的寄存器和高速缓存器理解成一个线程的栈内存,都是会产生数据同步的问题,这样就容易理解了。
总结
本篇文章主要是通过分析Java内存模型从而更好的理解为何要在多线程中使用同步机制,概念较多,理解就好。