Java 线程之间的通信对程序员完全透明,内存可见性问题很容易困扰 Java 程序员,本文将简要介绍 Java 内存模型。
Java 内存模型的基础
并发编程模型的两个关键问题
在并发编程中,需要处理两个关键问题:线程之间如何通信及线程之间如何同步。通信是指线程之间以何种机制来交换信息。在命令式编程中,线程之间的通信机制有俩种:共享内存和消息传递。
在共享内存的并发模型里,线程之间共享程序的公共状态,通过写-读内存中的公共状态进行隐式通信。在消息传递的并发模型里,线程之间没有公共状态,线程之间必须通过发送消息来显示通信。
同步是指程序中用于控制不同线程间操作发生相对顺序的机制。在共享内存并发模型里,同步是显示进行的。程序员必须显示指定某个方法或某段代码需要在线程之间互斥执行。在消息传递的并发模型里,由于消息的发送必须在消息的接受之前,因此同步是隐式进行的。
Java 的并发采用的是共享内存模型,Java 线程之间的通信是隐式进行的,整个通信过程对程序员完全透明,但是线程之间同步是显式进行的,需要程序员显式的进行线程同步。
Java 内存模型的抽象结构
在 Java 中,所有实例域、静态域和数组元素都存储在堆内存中,堆内存在线程之间共享。局部变量、方法定义参数和异常处理器参数不会在线程之间共享,它们不会有线程可见性问题,也不受内存模型的影响。
Java 线程之间的通信由 Java 内存模型(JMM)控制, JMM 决定一个线程对共享变量的写入何时对另一个线程可见。从抽象的角度来看, JMM 定义了线程和主内存之间的抽象关系:线程之间的共享变量存储在主内存中,每个线程都有一个私有本地内存,本地内存中存储了该线程以读/写共享变量的副本。本地内存是 JMM 的一个抽象概念,并不真实存在,它涵盖了缓存、写缓冲区、寄存器以及其他的硬件和编译器优化。Java 内存模型的抽象示意图如下:
从上图来看,如果线程 A 与线程 B 之间要通信的话,必须要经过下面两个步骤。
1)线程 A 把本地内存 A 中更新过的共享变量刷新到主存中去。
2)线程 B 到主存中去读线程 A 之前已经更新过的共享变量。
从源代码到指令序列的重排序
在执行程序时,为了提高性能,编译器和处理器常常会对指令做重排序。重排序分为三种类型。
- 编译器优化的重排序。编译器在不改变单线程程序语义的前提下,可以重新安排语句的执行顺序。
- 指令级并行的重排序。现代处理器采用了指令级并行技术来将多条指令重叠执行。如果不存在数据依赖性,处理器可以改变语句对应机器指令的执行顺序。
- 内存系统的重排序。由于处理器使用缓存和读/写缓冲区,着使得加载和存储操作看上去可能是在乱序执行。
上述的 1 属于编译器重排序,上述的 2 和 3 属于处理器重排序。这些重排序可能会导致多线程出现内存可见性问题。对于编译器, JMM 的编译器重排序规则会禁止特定类型的编译器重排序。对于处理器重排序, JMM 的处理器重排序规则会要求 Java 编译器在生成指令序列时,插入特定类型的内存屏障指令,通过内存屏障指令来禁止特定类型的处理器重排序。
JMM 属于语言级的内存模型,它确保在不同的编译器和不同的处理器平台之上,通过禁止特定类型的编译器重排序和处理器重排序,为程序员提供一致的内存可见性保证。
happens-before 简介
JMM 中使用 happens-before 的概念来阐述操作之间的内存可见性。在 JMM 中,如果一个操作执行的结果需要对另一个操作可见,那么这两个操作之间必须要存在 happens-before 关系,这里提到的两个操作既可以是在一个线程之内,也可以是在不同线程之间。
常见的 happens-before 规则如下:
- 程序顺序规则:一个线程中的每个操作 happens-before 于该线程中的任意后续操作。
- 监视器锁规则:对一个锁的解锁 happens-before 于随后对这个锁的加锁。
-
volatile
规则:对于一个volatile
域的写 happens-before 于任意后续对这个volatile
域的读。对于volatile
的详细理解可以看我的另一篇文章。 - 传递性:如果 A happens-before B,且 B happens-before C,那么 A happens-before C。
一个 happens-before 规则对应于一个或多个编译器和处理器重排序规则。对于 Java 程序员来说,happens-before 规则简单易懂,它避免了 Java 程序员为了理解 JMM 提供的内存可见性保证而去学习复杂的重排序规则以及这些规则的具体实现方法。
重排序
重排序是指编译器和处理器为了优化程序性能而对指令序列进行重新排序的一种手段。
数据依赖性
如果两个操作访问同一个变量,并且这两个操作中有一个为写操作,此时着两个操作之间就存在数据依赖性。数据依赖性分为下面 3 种类型:
名称 | 代码示例 | 说明 |
---|---|---|
写后读 | a = 1;b = a; | 写一个变量之后,再读这个变量 |
写后写 | a = 1; a = 2; | 写一个变量之后再写这个变量 |
读后写 | a = b; b = 1; | 读一个变量之后再写这个变量 |
上面 3 种情况,只要重排序两个操作的执行顺序,程序的执行结果就会被改变。
前面提到过,编译器和处理器可能会对操作做重排序。编译器和处理器在重排序时会遵守数据依赖性,编译器和处理器不会改变存在数据依赖关系的两个操作的执行顺序。这里所说的数据依赖性仅针对单个处理器中执行的指令序列和单个线程中执行的操作,不同的处理器和不同线程之间的数据依赖性不被编译器和处理器考虑。
as-if-serial 语义
as-if-serial 语义的意思是:不管怎么重排序,(单线程)程序的执行结果不能被改变。编译器、 runtime 和 处理器都必须遵守。
为了遵守 as-if-serial 语义,编译器和处理器不会对存在数据依赖关系的操作做重排序,因为这种重排序会改变程序的执行结果,但是如果操作之间不存在数据依赖关系,这些操作就可能被编译器和处理器重排序。
double pi = 3.14; // A
double r = 1.0; // B
double area = pi * r * r;// C
上面的代码片段中, A 和 C 之间存在数据依赖关系, B 和 C 之间也存在数据依赖关系,因此在最终执行的序列中, C 不能被重排序到 A 和 B 的前面,但 A 和 B 之间不存在数据依赖关系,编译器和处理器可以重排序 A 和 B 之间的执行顺序。
as-if-serial 语义把单线程程序保护了起来,遵守 as-if-serial 语义的编译器、runtime 和处理器共同为编写单线程程序的程序员创建了一个幻觉:单线程程序是按程序的顺序来执行的。as-if-serial 语义使单线程程序员无需担心重排序会干扰他们,也无需担心内存可见性问题。
程序顺序规则
根据 happens-before 规则,上面计算圆的面积的示例代码存在 3 个 happens-before 关系。
- A happens-before B。
- B happens-before C。
- A happens-before C。
这里 A happens-before B,但实际执行时 B 却可以排在 A 之前执行。如果 A happens-before B,JMM 并不要求 A 一定要在 B 之前执行, JMM 只要求前一个操作对后一个操作可见,这里操作 A 的执行结果不需要对操作 B 可见,而且重排序操作 A 和操作 B的执行结果与操作 A 和操作 B 按 happens-before 顺序执行的结果一致。在这种情况下, JMM 会认为这种重排序并不非法, JMM 允许这种重排序。
在计算机中,软件技术和硬件技术有一个共同目标:在不改变程序执行结果的前提下,尽可能并行度。编译器、处理器和 JMM 都遵循这一规则。
顺序一致性
顺序一致性内存模型是一个理论参考模型,在设计的时候,处理器的内存模型和编程语言的内存模型都会以顺序一致性内存模型作为参照。
数据竞争与顺序一致性
当程序未正确同步时,就可能会存在数据竞争。 JMM 对正确同步的多线程程序的内存一致性做了如下保证。
如果程序是正确同步的,线程的执行将具有顺序一致性——即程序的执行结果与该程序在顺序一致性内存模型中的执行结果相同。
顺序一致性内存模型
顺序一致性内存模型是一个被计算机科学家理想化了的理论参考模型,它为程序员提供了极强的内存可见性保证。顺序一致性内存模型有俩大特性。
- 一个线程中的所有操作必须按照程序的顺序来执行。
- 不管程序是否同步,所有线程都只能看到一个单一的操作执行顺序,在顺序一致性内存模型中,每个操作都必须原子执行且立刻对所有线程可见。
在概念上,顺序一致性内存模型有一个单一的全局内存,这个内存通过一个左右摆动的开关可以连接到任意一个线程,同时每一个线程必须按照程序的顺序来执行内存读/写操作。
总结
前面对 Java 内存模型的基础知识和内存模型的具体实现进行了说明。下面对 Java 内存模型相关知识做一个总结。
JMM 是一个语言级的内存模型,处理器内存模型是硬件级的内存模型,顺序一致性内存模型是一个理论参考模型。 JMM 和处理器内存模型在设计时通常会以顺序一致性内存模型作为参照,在设计时 JMM 和处理器内存模型会对顺序一致性模型做一些放松,因为如果完全按照顺序一致性模型来实现 JMM 和处理器内存模型,那么很多的编译器和处理器优化都要被禁止,这对程序的执行性能将有很大的影响。