一. Java 内存结构
Java代码运行在虚拟机上,虚拟机在运行过程将程序(也就是进程)所占有内存分为几个不同的数据区域。不同的区域有不同的职责。
Java运行时内存结构图如下:
1. PC寄存器(程序计数器):
当前线程执行的字节码的行号指示器。字节码解释器通过改变这个计数器的值来选取下一条需要执行的字节码指令。
- 线程私有(每条线程有独立的计数器)
- 没有OOM的区域
- 如执行的是Native方法,则计数器的值为空
2. 虚拟机栈:
也就是我们常说的线程方法栈。大致符合所了解的先入后出的栈结构特性,其出入栈的数据结构称为栈帧,也就是调用某个方法A时,则会入栈一个栈帧,这个栈帧结构包括了方法A中的局部变量区、操作数据栈,动态链接、方法的返回地址等。
编译期间确定栈帧的大小。虚拟机栈大小也比较小,大概1M左右,故而可能发生StackOverfollowError, 比如无限递归调用。
局部变量区:局部变量,在方法内声明的变量。其编译期间就确定这个区间的大小。
操作数栈:也是先入后出,JVM的指令集在操作时都是对操作栈上的数据进行操作,比如说算术运算、方法调用时的参数传递。
动态链接:栈帧中包含一个运行时常量池中该栈帧所属方法的引用
方法A调用方法B的调用过程大致是:方法A存有方法B的在常量池的符号引用b,然后根据指令将符号引用b作为参数,并将b解析为方法B真正所在的内存地址,
直接引用,然后进行方法B真正调用。生成的栈帧就持有了自身方法的引用。
这些符号引用一部分在类加载阶段或第一次使用的时候就被转换直接引用的,就称为静态解析,比如静态方法以及私有方法。在运行期被转换为直接引用的过程称之为动态链接。
- 方法返回地址:方法退出时(正常return或异常退出),回到方法被调用的位置,并会返回一个值给上层方法(若有的话),并恢复上层方法的执行状态。
3. 本地方法栈:
当调用原生代码时的方法栈。作用类似于虚拟机栈。
而数据结构、使用方式。都由虚拟机自由发挥。
4. 堆:
堆栈...我们比较熟悉也可能长挂在嘴边的一个词。栈我们都知道了,就是上面的虚拟机栈,也确实是有先进后出的一种特性。但这里的堆就跟数据结构中的堆完全不同概念了,也没有什么共性。
堆:就是一个主要用于存放对象的内存区域,线程共享的一块区域,堆允许程序在运行时动态地申请某个大小的内存空间。
堆中有一个不得不提的事 --- 垃圾回收(GC)
堆划分为两个区域: 新生代和老年代,默认比例1:2。新生代又划分为Eden和 Survivor,而Survivor又划分为from和to两个区域。其中默认比例为 Eden:from:to = 8:1:1, 运行时,from和to有一块区域是会处于闲置状态,GC的时候,两个状态发生切换。
当我们新建一个对象的时候,绝大多数新建的对象被放在 Eden 区域(例外的有,需要更多的一大片连续的储存空间只有老年代才能满足的时候)。
而这个对象不再使用的时候,系统则需要对其回收,以便更好分配内存。
GC分为两种,Minor GC 和 Full GC
GC时间不可预测,满足触发条件,系统才GC,若GC后的空间仍不满足,则会发生OOM。GC过程会 stop the world, 根据对象的引用链,标记不可达对象。可调用System.gc() 提醒系统触发GC(Full GC)。
判断对象是否存活
- 引用计数:判断对象被引用的次数,无法解决相互引用的问题。
- 可达性分析:从GC Roots开始向下搜索,搜索所走过的路径称为引用链。当一个对象不存在于任何一条GC Root的引用链的时候,则证明此对象是不可达的,则会进行一次标记。
GC Roots 包括:
虚拟机栈中引用的对象。
方法区中类静态属性实体引用的对象。
方法区中常量引用的对象。
本地方法栈中JNI引用的对象。
不可达不一定会立马被回收,如果你重写了Object.finalize()的话:
要知道这个方法是在对象不可达之后,GC时将该方法交给优先级更低Finalizer线程去执行(只执行一次)。
同时该对象放入可回收队列(虚引用出现的地方?)
并在下次GC时再次判断是否可达以及finalize()是否被执行,然后再回收。
现在是不建议覆盖此方法的。毕竟影响GC。
GC 算法
-
复制算法
将区域分为两块,其中一块闲置。GC时将可达的对象复制至闲置的区域,清除当前区域。循环往复。
-
标记-清除算法
先根据引用链标记所有对象的存活状态,然后并从内存中清除所有不可达对象进行清除
-
标记-压缩算法
标记-清除算法的改进版,将所有存活的对象压缩整理到同一侧区域,较少内存空间碎片。然后清理边界外的区域。
Minor GC
针对新生代的GC, Eden满了之后会触发。
Minor GC时,会将eden和from区域的存活对象都复制至Surivor的to区域(假设当前to闲置),当对象在在surivor存在足够久,比如熬过了默认的15次GC,那么就会被存入老年代。
当然若to区域空间放不下所有存活的对象,那么多余的都会进入老年代。
这过程显然的用的是 复制算法。
Full GC
对所有空间进行GC,包括堆和方法区(类卸载)
触发条件:
- System.gc()
- 老年代的空间不足(包括新申请、从eden或surivor复制过来的)
- 方法区空间不足
老年代区域使用的是标记-压缩算法。
5.方法区:
方法区,概念上的区域,指明该区具有什么功能。不同的虚拟机有不同的实现,储存的内存区域不定。
永久代与元空间:均是方法区的实现。永久代将大多数据放在堆内存上,容易诱发OOM。
JDK 1.8之后废弃永久代使用元空间,将方法区数据放在本地内存,理论上可仅受系统内存限制。
存放有运行时常量池,以及class加载后的产物(类字节码、class/method/field等元数据对象、static-final常量、static变量),以及JIT过程的生成的代码。线程共享
先说下,JIT, 即时编译.JVM通过解释器java字节码(.class文件)执行时,由于效率问题,引入JIT,即JVM发现某个代码块运行频繁,则会将其编译为相关的机器码,存在方法区,供下次使用。
运行时常量池
字节码文件--class文件中包含了很多信息,比如魔数、属性表、方法表等,其中还有一个常量池,常量池则包含了这个类所用到的各种字面量和引用量
class A {
final int a = 0;
String s = "hhh"
String s1 = "aa" + s
void test() {
String s2 = "ssss"
}
}
字面量
这个好理解,其实就是 各种 文本字符串,以及基本数据类型,final 常量等,注例如
那么 0、"hhh"、"aa"、"ssss" 都属于字面量
引用量:
也就是符号引用,类和接口的全限定名、字段的名称和描述符、方法的名称和描述符
还是上面的Class A
那么 类全限定名
packagename.A、a、test、packagename.A.test:()V这些就是符号引用
类加载的时候,常量池就会被加载入运行时常量池中!
同时运行时常量池还具有动态性,比如
void test(String a) {
String s = new String("ddd")
s.intern();
}
那么判断常量池是否已经存在"ddd",若不存在然后将"ddd"加入常量池,存在则s指向常量池中"ddd"的地址。
最后
总结下,其实Java内存结构 也就是JVM内存结构,由虚拟机规范定义。描述的是在程序执行过程中,由JVM管理的不同数据区域,各个区域有特定的功能。
2. Java 内存模型
稍微聊一下JMM,即 Java Memory Model, 这是一个抽象的概念,其模型图如下。
之前对JMM的概念真的分不清,以下整段拷贝...
Java内存模型定义了线程和内存的交互方式,在JMM抽象模型中,分为主内存、工作内存。主内存是所有线程共享的,Java内存模型规定了所有的变量都存储在主内存中;每条线程还有自己的工作内存,线程的工作内存中保存了被该线程使用到的变量的主内存的副本拷贝,线程对变量的所有操作(读取、赋值等)都必须在工作内存中进行,而不能直接读写主内存中的变量。不同的线程之间也无法直接访问对方工作内存中的变量,线程间变量值的传递均需要通过主内存来完成。
我们知道,多线程之间的通信是通过共享内存进行通信的
这里的主内存可以说就是上面JVM中的共享内存。而工作内存则是一个抽象概念,其实现比如有什么CPU各级缓存,寄存器什么的
那么根据这多线程并发通信过程存在的可见性、原子性、指令重排问题,JMM则定义了一些语法集,也就是我们常见的synchronize、volatile等关键字。
emm...大致就先这样吧,反正不要混淆与JVM内存结构这个概念吧。有时间再写一篇并发通信的文章。
另外还可以了解下happen-before的规则
深入理解happens-before规则
3. Java对象模型
这个就指一个对象在内存中的储存结构了。
jvm在加载class时,会创建instanceKlass,表示其元数据,包括常量池、字段、方法等,存放在方法区;instanceKlass是jvm中的数据结构;
在new一个对象时,jvm创建instanceOopDesc,来表示这个对象,存放在堆区,其引用,存放在栈区;它用来表示对象的实例信息,看起来像个指针实际上是藏在指针里的对象;instanceOopDesc对应java中的对象实例;
instanceKlass对java上层来说并不可见。我们能看到就是根据instanceKlass而创建的Class对象。也就是 Object.getClass() 返回的这个玩意。
4. 问题:
1.堆内存真的完全线程共享吗?
线程在创建对象时,会进行内存的分配,分配如何避免多个线程并发?就不提了,也不懂。但是一般由于需要频繁的创建对象,故而使用了TLAB (Thread Loacle allocation Buffer)来提高效率,也就是每个线程给予先分配一小块独享的堆内存,当线程需要进行内存分配时,则直接在该块内存进行分配。分配时,独显,分配后的对象是可以被其他线程读取的。
TLAB存在于eden区域,也就是新生代,并不影响内存回收。当申请的内存大于TLAB的剩余空间,其他策略处理。
2. 对象一定储存在堆中分配内存吗?
在JIT过程中,会对代码进行优化,部分目的是为减少内存分配压力,其中用到了逃逸分析,即若分析得到某个对象的使用范围不超过该方法或者不超过本线程,那么就可能会被优化在栈上分配内存!
当然这里会考虑,栈本身大小就几百K--1M的问题。还有就是逃逸分析,就是在对象是否为超出本线程或这个方法,那么该分析也可用于锁消除优化。
锁消除优化
比如下面这段代码
fun test() {
val buffer = StringBuffer()
buffer.append("test")
}
大家都知道StringBuffer的方法都用了synchronize修饰,但是在经过逃逸分析后,显然buffer这个局部变量时本身就是线程安全,不可能被其他线程引用,那么JVM会自动StringBuffer对象的内部锁。可以说是当做StringBuilder来看待。
参考文章
java堆内存详解
Java GC你不得不知的那些事
符号引用与直接引用
万万没想到,JVM内存结构的面试题可以问的这么难
JVM内存结构 VS Java内存模型 VS Java对象模型
JMM
Java对象模型