1.概述
对于从事C、C++的开发拥有每个对象的"所有权",需要维护每个对象生命开始到终结;对于从事Java开发的人员,虚拟机会自动管理内存,但是出了问题,很难排查。
2.运行时数据区域
Java虚拟机在运行程序时会把它所管理的内存划分为若干个不同的数据区域。这些区域有各自的用途,创建和销毁时间。有的区域随着虚拟机进程的启动而存在,有的则是依赖用户线程的启动而存在。
根据Java规范,虚拟机的内存包括以下:
2.1 程序计数器
它是一块较小的内存空间,它可以看作是当前线程执行的字节码的行号指示器。
在虚拟机的概念模型中,(但是各种虚拟机可能会通过各种更高效的方式实现)字节码解释器工作时是通过改变这个计数器的值来选取下一条字节码指令:分支、循环、跳转、异常处理、线程恢复等。
Java虚拟机的多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,所以一个处理器(一个内核)都只会执行一条线程中的指令。
为了线程切换后恢复到正确的执行位置,每条线程都要有一个程序计数器,各个线程之间计数器互不影响,称为"线程私有的内存"。
如果线程执行的Java方法,它记录的是正在执行的字节码指令地址;如果执行的是Native方法,它为null。
2.2 Java虚拟机栈
它也是线程私有的,生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型:每个方法在执行时都会创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口信息等。
每一个方法从调用到执行完成的过程,就对应着一个栈帧在虚拟机中入栈到出栈的过程。
虚拟机中远比常说的堆和栈要复杂。堆后面再说,这里的栈就是虚拟机栈,或虚拟机栈的局部变量表。
局部变量表中存放了编译期可知的各种基本类型:boolean、byte、char、short、int、float、long、double;对象的引用;returnAddress类型(指向一条字节码指令的地址)。
其中64位的long和double会占用2个局部变量空间(slot),局部变量表在编译期间完成分配,当进入一个方法时,这个方法需要在帧中分配多大的局部变量空间时完全确定的,方法运行后不会发生改变。
Java规范中,对这个区域规定了2种异常状况:
线程请求的栈深度大于虚拟机所允许的深度抛出StackOverflowError异常;如果虚拟机是动态扩展,扩展时无法申请足够的内存,抛出OutOfMemoryError异常。
2.3 本地方法栈
本地方法栈与虚拟机栈很相似,区别是虚拟机栈执行Java方法(字节码)服务,本地方法栈为虚拟机使用的Native方法服务。在虚拟机规范中对本地方法栈方法使用的语言、方式和数据结构没有强制规定。甚至有些(如Sun HotSpot)直接把这两者合二为一,都抛出上述2种异常。
2.4 堆
堆是Java虚拟机管理的内存中最大的一块。Java堆是被所有线程共享的一块区域,堆中唯一的目的就是存放对象实例。
堆是垃圾回收器管理的主要区域。也被叫做"GC堆"。
从内存回收的角度来看,垃圾回收器基本采用分代收集算法:新生代和老年代;再细致点有Eden空间、From Survivor空间、To Suvivor空间等;从内存分配的角度看,线程共享的Java堆中可能划分出多个线程私有的分配缓冲区(Thread Local Allocation Buffer,TLAB)。
进一步的划分是为了更好的回收/更快的分配内存。
Java虚拟机规范中,堆可以是物理上不连续的内存空间中。如果堆中没有内存完成实例分配,并且堆也无法再扩展时,将抛出OutOfMemoryError异常。
2.5 方法区
和堆一样,是各个线程共享的内存区域。用于存储被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。它有个别名"Non-Heap"。
习惯在HotSpot虚拟机上开发的人更多的把方法区称为"永久代",本质上两者不等价,是因为HotSpot的设计是选择把GC分代收集扩展到了方法区上(使用永久代来实现了方法区)。这样做的缺点是:更容易遇到内存溢出问题。但现在HotSpot逐步放弃了永久代改为采用Native Memory实现方法区。1.7版后,已经把原本放在永久代的字符串常量池移出。
方法区也是可以选择固定大小或可扩展的,但也可以选择不实现垃圾收集。这区域的内存回收目标主要是针对常量池的回收和对类型的卸载,很难做好。当方法区无法满足内存分配时,发生OutOfMemoryError异常。
2.6 运行时常量池
方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息,还有一项信息是常量池:用于存放编译期生成的字面量和符号引用,这部分内容将在类加载后的方法区中的运行时常量池中存放。
运行时的常量池相对于Class文件常量池的另外一个重要的特征是具备动态性,Java不要求常量一定只有编译期才能产生,运行期间也可以有新的常量放入池中。这个特性被利用的比较多的是String类的intern()方法。
常量池无法申请到内存时,会抛出OutOfMemoryError异常。
2.7 直接内存
JDK1.4中加入了NIO类,引入了一种基于通道和缓冲区的I/O方式,它可以使用Native函数库直接分配堆外内存,然后通过一个存储在Java堆中的DirectByteBuffer对象作为这块内存的引用进行操作。这样显著提高了性能,避免了Java和Native堆中来回复制数据。
3.虚拟机对象探秘
以HotSpot和常用的内存区域Java堆为例,深入探讨HotSpot虚拟机在Java堆中对象分配、布局和访问的全过程。
3.1 对象的创建
语言层面上:创建对象(例如克隆、反序列化)通常仅仅是一个new关键字而已。
虚拟机层面:遇到一条new指令时,先去检查这个指令的参数能否在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,先执行相应的类加载过程。
类加载通过后,虚拟机为新生对象分配内存。对象所需内存的大小在类加载完成后便可完全确定,从Java堆中划分出一块。
假设Java堆中内存是规整的,用过的内存在一边,闲置的在另一边,中间是一个指针作为分界点的指示器,所分配的内存就是把指针向空闲空间方向挪动一段与对象大小相等的距离。称为"指针碰撞"(Bump the Pointer)。
如果Java堆内存不是规整的,已使用的内存和闲置的相互交错。那么虚拟机就必须维护一个列表,记录哪些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,然后更新表上的记录。称为"空闲列表"(Free List)。
需要考虑的问题:对象创建在虚拟机中是非常频繁的行为,在并发情况下,修改一个指针所指向的位置也不是线程安全的。如出现正在给对象A分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。
如何解决呢?有两种方案:
1.对内存空间的分配进行同步处理,实际上虚拟机采用CAS配上失败重试的方式保证更新操作的原子性
2.把内存分配的动作按照线程划分在不通的空间之中。即每个线程在Java堆中预先分配一块内存,称为本地线程分配缓冲区(Tread Local Allocation Buffer,TLAB)。需要使用时,通过 -XX:+/-UseTLAB参数设置。
内存分配完成后,虚拟机将分配到的内存空间都初始化为零值(不包括对象头),如果使用TLAB,这一工作过程也可以提前至TLAB分配时进行。保证了对象的实例字段在Java代码中可以不赋初始值就可以使用,程序能访问到这些字段的数据类型所对应的零值。
接下来,虚拟机要对对象做必要的设置,例如这个对象是哪个类的实例、如何才能找到这个类的元数据信息、对象的哈希码等。这些信息放在对象的对象头中。
从虚拟机的角度看,这样一个新的对象就产生了。从Java程序的角度看,对象创建才刚开始:init方法没执行,所有字段都为零,初始化后才算完整。
3.2 对象的内存布局
在HotSpot虚拟机中,对象在内存中存储的布局分为3块区域:对象头、实例数据、对齐填充。
对象头包括两部分,第一部分用于存储对象自身的运行时数据,如哈希码、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,这部分数据等长度在32位和64位虚拟机中分别为32bit和64bit。称为"Mark Word"。
但是对象要存储等运行时数据很多,超出了能记录的限度。所以,"Mark Word"被设计成一个非固定的数据结构以便在极小的空间存储尽量多的信息,它会根据状态复用自己的存储空间。
第二部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针确定这个对象是哪个类的实例。其实查找元素并不一定要经过对象本身(不是必须在对象数据上保留类型指针)。如果是Java数组,对象头还必须有一块记录数组长度的数据。
第三部分对齐填充不是必须存在的,它仅仅是占位符的作用。HotSpot VM的自动内存管理系统要求对象起始地址必须是8字节的整数倍(对象的大小必须是8字节的整数倍),当对象实例数据部分没有对齐时,需要对齐填充补全。
3.3 对象的访问定位
Java程序需要通过栈上的reference数据来操作堆上的具体对象。由于reference类型在Java虚拟机规范中只规定了一个指向对象的引用,并没有定义这个引用应该通过什么方式定位和访问堆中的对象的具体位置。所以对象访问方式是取决于虚拟机实现而定的。
目前主流的访问方式是使用句柄和直接指针两种。
- 句柄:Java堆中将会划分出一块内存作为句柄池,reference中存储的就是对象的句柄地址,句柄中包含了对象实例数据与类型数据各自的具体地址信息。
- 直接指针访问:这种方式Java堆对象的布局中必须考虑如何放置访问类型数据的信息,reference存储对象地址。
利与弊:
句柄访问最大的好处是reference中存储的是稳定的句柄地址,在对象被移动(垃圾回收器移动对象)时只会改变句柄中的实例数据指针,reference本身不需要修改。
直接指针访问最大的好处就是速度更快,它节省了一次指针定位的时间开销,对象的访问很频繁,因此开销积少成多。
4.实战:OOM异常
目的:
通过代码验证Java虚拟机规范中描述的各个运行时区域存储的内容;
以后遇到实际情况时,能快速判断是哪个区域内存溢出了,什么样的代码会导致内存溢出,出现怎么处理;
4.1 Java堆溢出
Java堆保存对象实例,只要不断创建对象,保证GC Roots到对象之间有可达路径避免垃圾回收器回收,就会导致内存溢出异常。
如果是内存泄漏(线程申请的栈深度大于虚拟机所允许的深度),可进一步通过工具查看泄漏对象到GC Roots的引用链,就可以找到导致垃圾回收器无法自动回收它们的原因。
如果不是内存泄漏(就表示内存中的对象确实必须存活着),就应该检查虚拟机的堆参数(-Xmx与-Xms),调大;代码方面检查是否存在某些对象生命周期长、持有状态实际长的情况,从而减少运行期内存的消耗。
4.2 虚拟机栈和本地方法栈溢出
(HotSpot虚拟机并不区分虚拟机栈和本地方法栈)
Java虚拟机规范描述了两种异常:
StackOverflowError:线程请求的栈深度大于虚拟机所允许的最大深度。
OutOfMemoryError:虚拟机在扩展栈时无法申请足够的内存空间。
当栈空间无法继续分配时,到底是内存太小,还是已使用的栈空间太大,本质上只是对同一件事情的两种描述而已。
作者的实验中,单线程环境下尝试了一下两种方法都没用让虚拟机产生OOM异常,都是StackOverflowError:
适用-Xss参数减少栈内存容量。
定义了大量的本地变量,增大方法帧中本地变量表的长度。
多线程下,倒是可以产出OOM异常。操作系统分配给每个进程的内存是有限制的,如32位限制2GB。虚拟机控制Java堆和方法区的内存最大值。2GB减去Xmx(最大堆容量)和MaxPermSize(最大方法区容量),程序计数器消耗可以忽略,如果虚拟机本身内存耗费不算,剩余的内存就被虚拟机栈和本地方法栈瓜分了。
每个线程分配到的栈容量越大,可以建立的线程数量就越少。再不能减少线程数或者更换更大电脑内存大情况下,只能通过减少最大堆和栈容量来换取更多线程。
4.3 方法区和运行时常量池溢出
运行时常量池是方法区的一部分,因此两个区域的溢出一起测试。
String.intern()是Native方法:如果字符串常量池中已经包含了一个等于此String对象的字符串,就返回常量池中这个字符串的String对象;否则,将此String对象包含的字符串添加到常量池中,并返回String对象的引用。
JDK1.6之前,常量池分配在永久代对象内,可以通过 -XX:PermSize和-XX:MaxPermSize限制方法区大小,从而限制其中常量池的容量。
看下面一段代码
JDK1.6返回两个false,JDK1.8返回两个true:JDK1.6中intern()方法把首次遇到的字符串实例复制到永久代中,返回的也是永久代这个字符串实例的引用,StringBuilder创建的字符串实例在Java堆上,所以false。而JDK1.8的intern实现不会在复制实例,只是在常量池中记录实例。所以true。
方法区用于存放Class的信息:类名、访问修饰符、常量池、字段描述、方法描述等。这个区域的测试,思路就是运行时产生大量的类区填满方法区,直到溢出。
注意:实际应用中如Spring,Hibernate,在对类进行增强时,都会用CGLib这类字节码技术,增强对类越多,就需要越大的方法区来保证动态生成的Class可以加载入内存。
一个类要被垃圾回收器回收,判定条件是比较苛刻的。在经常动态生成大量Class的应用中,需要特别注意类的回收。
4.4 本机直接内存溢出
DirectMemory可以通过-XX:MaxDirectMemorySize指定,默认与Java对最大值(-Xmx)一样。下图中DirectByteBuffer类,虽然也会抛出异常,但是它抛出的异常并没有真正向操作系统申请分配内存,而是通过计算得知无法分配内存,手动抛出异常的,真正申请分配内存的地方是:unsafe.allocateMemory()。