一、为什么要进行垃圾回收
随着程序的运行,内存中存在的实例对象、变量等信息占据的内存越来越多,其中有很多对象再也用不到,这些用不到的对象就被称之为垃圾,如果不及时进行垃圾回收,必然会带来程序性能的下降,甚至会因为可用内存不足造成一些不必要的系统异常。
垃圾回收机制主要是对 JVM 中堆内存进行管理,如果对 JVM 相关的概念还不了解,可以看一看《JVM 从入门到出门》这篇文章。
二、如何判定对象是否为垃圾
1、引用计数法
给对象添加一引用计数器,被引用一次计数器值就加 1;当引用失效时,计数器值就减 1;计数器为 0 时,对象就是垃圾。
优点是执行效率高,缺点是无法解决对象之间相互循环引用的问题。
2、可达性分析算法
以 GC Roots 为起始点进行搜索,判断对象的引用链是否可达,可达的对象都是存活的,不可达的对象可被回收。GC Roots 一般包含以下内容:
- 虚拟机栈中局部变量表中引用的对象
- 本地方法栈中 JNI 中引用的对象
- 方法区中类静态属性引用的对象
- 方法区中的常量引用的对象
对象死亡(被回收)前的最后一次挣扎:
即使在可达性分析算法中不可达的对象,也并非是“必死不可”,这时候它们暂时处于“缓刑”阶段,要真正宣告一个对象死亡,至少要经历两次标记过程。
第一次标记:如果对象在进行可达性分析后发现没有与 GC Roots 相连接的引用链,那它将会被第一次标记;
第二次标记:在第一次标记后接着会进行一次筛选,筛选的条件是此对象是否有必要执行finalize()
方法。在finalize()
方法中没有重新与引用链建立关联关系的,将被进行第二次标记。
第二次标记成功的对象将真的会被回收,如果对象在finalize()
方法中重新与引用链建立了关联关系,那么将会逃离本次回收,继续存活。
三、回收垃圾的算法
回收垃圾的算法主要有 4 种:标记清除算法, 标记整理算法,复制算法,分代收集算法。下面分别介绍。
1、标记清除
标记:从 GC Roots 为起始点进行扫描,如果是活动对象,则程序会在对象头部打上标记。
清除:对堆内存从头到尾进行线性遍历,回收不可达对象。
但是,标记清除算法会产生大量不连续的内存碎片,导致无法给大对象分配内存。例如上图中 B 与 E 之间只剩 2 格,若有一个新对象要占用 3 格,则需要开辟另外的内存或者 Full GC。
2、标记整理
标记:从 GC Roots 为起始点进行扫描,如果是活动对象,则程序会在对象头部打上标记。
整理:移动所有存活对象,且按照内存地址次序依次排列,然后将末端以后的内存地址全部回收。
弥补了标记清除算法的不足,不会产生内存碎片。但是需要移动大量对象,处理效率比较低。
3、复制算法
将内存划分为大小相等的两块,每次只使用其中一块,当这一块内存用完了就将还存活的对象复制到另一块上面,然后再把使用过的内存空间进行一次清理。
不会产生内存碎片问题,顺序分配内存,执行效率高,但每次只使用了一半的内存,未免有点浪费。
4、分代收集
分代收集实际上就是将上述 3 种算法综合起来,针对不同的区域,采用不同的方法,按照对象的生命周期的不同划分区域,采用不同的垃圾回收算法,以提高 JVM 回收效率。
Java 堆分为两部分,Java 堆 = 新生代 + 老年代,默认分别占堆空间为 1/3、2/3;其中,新生代 = Eden + From Survivor + To Survivor,默认为 8:1:1。这样划分是由于对象生存周期的特殊性,针对不同的对象,采用不同的方法。
新生代使用:复制算法
老年代使用:标记清除 或 标记整理 算法
所有的对象都在 Eden 区创建,由于大部分对象都是“朝生夕灭”,只有少量对象能存活下来,所以在新生代采用复制算法,只有少量对象需要复制,这样最划算。
当 Eden 区满了,那么就会触发一次 Young GC,也就是年轻代垃圾回收。少量有用的对象会复制到 From 区。这样整个Eden区就被清理干净了,可以继续创建新的对象。
当 Eden 区再次被用完,就再触发一次 YoungGC,这个时候跟刚才稍稍有点区别。这次触发 Young GC 后,会将 Eden 区与 From 区还在被使用的对象复制到 To 区,再下一次 YoungGC 的时候,则是将 Eden 区与 To 区中的还在被使用的对象复制到 From 区。
经过若干次 YoungGC 后,有些对象在 From 与 To 之间来回游荡,这时候 From 区与 To 区亮出了底线(阈值),这些家伙要是到现在还没挂掉,对不起,一起复制老年代吧。
而在老年代,大部分对象任然会继续存活下来,此时采用标记整理或者标记清除算法,这样最划算。
对象如何晋升到老年代?
1、经历一定次数的 Minor GC 任然存活的对象,默认 15 次;
2、Eden 区或 Survivor 区域存放不下的对象;
3、新生成的大对象,直接放入老年代。
四、常见的垃圾收集器
Serial 垃圾收集器(单线程,复制算法):
Serial 是单线程收集,进行垃圾收集时必须暂停所有工作线程。但是它简单高效,JVM Client 模式下默认的年轻代收集器。
ParNew 垃圾收集器(多线程,复制算法):
ParNew 是多线程收集器,是 CMS 默认的新生代垃圾回收器,其他行为特点与 Serial 一样。
Parallel Scavenge 垃圾收集器(多线程,复制算法):
Parallel Scavenge 和 ParNew 一样,都是多线程、新生代垃圾收集器。两者的区别在于:
Parallel Scavenge 追求 CPU 吞吐量,能够在较短时间内完成指定任务,因此适合没有交互的后台计算;
ParNew 追求降低用户停顿时间,适合交互式应用。
Serial Old 垃圾收集器(单线程,标记整理算法):
Serial Old 收集器是 Serial 的老年代版本,都是单线程收集器,都适合客户端应用。它们唯一的区别就是:Serial Old 工作在老年代,使用“标记-整理”算法;Serial 工作在新生代,使用“复制”算法。
CMS 垃圾收集器(标记清楚算法):
CMS (Concurrent Mark Sweep,并发标记清除) 收集器是以获取最短回收停顿时间为目标的收集器(追求低停顿),它在垃圾收集时,用户线程 和 GC 线程并发执行,因此在垃圾收集过程中不会感到明显的卡顿。
具体执行过程如下图:初始标记 (Initial Mark) —> 并发标记 (Concurrent Mark) —> 重新标记 (Remark) —> 并发清除 (Concurrnet Sweep)。
初始标记 (Initial Mark):仅仅只是标记一下 GC Roots 能直接关联到的对象,速度很快,需要 Stop The World。
并发标记 (Concurrent Mark):从 GC Roots 的直接关联对象开始遍历整个对象图的过程,耗时较长,但不需要停顿用户线程,可与垃圾收集器线程一起并发执行。
重新标记 (Remark):该阶段是为了修正并发标记期间,因用户程序运作而导致标记产生变动的那一部分对象的标记记录,这个阶段需要 Stop The World,而且停顿时间通常比初始阶段稍长一些,但也远比并发标记阶段的时间短。
并发清除 (Concurrnet Sweep):清理删除掉标记阶段判断已经死亡的对象,由于不需要移动存活对象,所有这个阶段可以和用户线程并发执行。
CMS 收集器是并发收集,有两次 Stop The Words,两次标记,因为 GC 线程和应用线程同时执行,好比你妈在打扫房间,你还在扔纸屑,可能产生新的引用关系。
CMS 的缺点:吞吐量低,无法处理浮动垃圾,导致频繁 Full GC,使用“标记-清除”算法产生碎片空间。
G1 垃圾收集器
G1 (Garbage-First) 是一款面向服务端应用的垃圾收集器,它弱化了新生代和老年代的概念,虽然还保留了新生代和来年代的概念,但新生代和老年代不再是物理隔离的了,而是将堆划分为一块块独立的 Region(默认将整堆划分为 2048 个 Region),每个 Region 也不会确定地为某个代服务,可以按需在年轻代和老年代之间切换。
内存的回收是以 Region 为基本单位的,当要进行垃圾收集时,首先估计每个 Region 中垃圾的数量,每次都从垃圾回收价值最大的 Region 开始回收,因此可以获得最大的回收效率。
什么是回收价值最大?
价值最大就是回收耗时最短,回收时间就是复制的时间,存活对象越多,回收时要复制的间就越长,回收的效益就越低,例如同等大小的两个 Region,回收一个需要 100ms,另一个需要 50ms,那么 G1 肯定优先回收 50ms 的,这样就保证了在有效时间内能回收更多的堆空间。
每个 Region 都有一个 Remembered Set,用来记录该 Region 对象的引用对象所在的 Region。通过使用 Remembered Set,在做可达性分析的时候就可以避免全堆扫描。
从整体上看, G1 是基于“标记-整理”算法实现的收集器,从局部(两个 Region 之间)上看是基于“复制”算法实现的,这意味着运行期间不会产生内存空间碎片。