模板解释器
我们都知道Java之所以可以一次编译到处运行,完全是因为字节码的原因,字节码就相当于中间层屏蔽了底层细节。但是想要在机器执行,最终还是要翻译成机器指令。
而JVM是通过C/C++来编写的,Java程序编译后,会产生很多字节码指令,每一个字节码指令在JVM底层执行的时候又会编程一堆C代码,这一堆C代码在编译之后又会编程很多的机器指令,这样我们的java代码到最终执行的机器指令那一层,所产生的机器指令时指数级的,这也就导致了Java执行效率低下。
早期的JVM是因为解释执行慢而被人诟病,那么有没有办法优化这个问题呢?我们发现之所以慢是因为java和机器指令之间隔了一层C/C++,而GCC之类的编译器又不能做到绝对的智能编译,所产生的机器码效率就不是很高。因此我们只要跳过C/C++这个层次,直接将Java字节码和本地机器码进行一个对应就可以了。
因此HotSpot的工程师们废弃了早期的解释执行器,而采用了模板执行器。所谓的模板就是将一个 java 字节码通过人工手动的方式编写为固定模式的机器指令,这部分不在需要 GCC 的帮助,这样就可以大大减少最终需要执行的机器指令,所以才能提高效率。
在OpenJdk12源码中,JVM所有的解释器都在src/hotspot/share/interpreter
目录下,templateInterpreter.cpp
就是模板解释器的代码位置。分析这里的initialize方法,我们可以在templateTable.cpp
中找到和synchronized相关的两个指令(monitorenter
,monitorexit
)的实现方式,当然这里面还有其他我们熟悉的指令,比如invokedynamic
,newarray
等指令
1 | def(Bytecodes::_monitorenter, ____|disp|clvm|____, atos, vtos, monitorenter, _); |
monitorenter执行逻辑
这里倒数第二个参数的monitorenter
函数和monitorexit
函数是对应字节码的机器码模板的位置,这里我们看下monitorenter
的实现,因为机器码的实现和CPU相关的,这里我们看下x86的实现(templateTable_x86.cpp
),当然也可以在src/hotspot/cpu
下看到其他的实现,比如ppc,arm,s390
等
1 | void TemplateTable::monitorenter() { |
从代码可以看出如果启用了重量级锁,那么就直接走重量级锁的逻辑(monitorenter),不然会先处理偏向锁的逻辑,然后不满足会再回到monitorenter中
偏向锁: -XX:+UseBiasedLocking , JDK1.6之后默认启用
重量级锁: -XX:+UseHeavyMonitors
偏向锁,轻量级锁以及重量级锁
我们提到了重量级锁和偏向锁,这两个是什么意思呢?
我们都知道Java的线程是映射到操作系统的原生线程之上的,无论是是阻塞还是唤醒一个线程,都需要操作系统的帮助,这就需要从用户态转换到核心态中。而很多人说synchronized慢也正是由于这个原因。之前的文章也说过synchronized实际上是通过操作系统的互斥量来实现的,而这也被称为重量级锁。
相对于重量级锁,还有一个叫做轻量级锁。它的加锁不是通过操作系统来实现的,而是通过CAS配合Mark Word一起实现的,后面我会通过源码来展示它的实现方式。
而偏向锁相对于轻量级锁更加轻量,这里的偏向指的是偏向某一个线程。如果只有一个线程来获取锁,那么锁对象就会偏向这个线程,如果在接下来的执行过程中,该锁没有被其他的线程获取,则持有偏向锁的线程将永远不需要再进行同步。
接下来我们沿着源码从 偏向锁–>轻量级锁–>重量级锁这样来分析下JVM是如何进行优化的。
内存布局
在分析锁实现之前,你可能要先去看看上一篇文章,看看对象在内存中的布局,这里我贴一张图让你在重温下
锁状态转化及对象Mark Word的关系
实际上锁的优化逻辑,在JDK中的wiki中已经有一个提纲挈领的图了,这里我先贴出来。后面的代码分析也会跟着这张图走。
偏向锁
偏向锁的启动
偏向锁会在虚拟机启动后的4秒之后才会生效,我们可以从hotspot/share/runtime/biasedLocking.cpp
看到这样的设定
1 |
|
BiasedLockingStartupDelay
默认时间是4000毫秒,所以会在启动4s之后启动一个定时任务来设置开启偏向锁的设定。
我们可以通过-XX:BiasedLockingStartupDelay=0
来设置马上启动偏向锁。这里也填了上一篇的一个坑。
java -XX:+PrintFlagsFinal | grep BiasedLockingStartupDelay
定时任务会调用enable_biased_locking
方法,将锁对象的类的Mark Word的后三个字节设置为101,锁对象类的Mark Word被称为prototype_header,记住这个下面分析偏向锁的时候会用到。
1 |
|
上面Java代码中锁对象是obj,其所属类型是MyObject(obj是MyObject的一个实例)。而prototype header
实际上就是MyObject的Mark Word。
偏向锁申请
biased_locking_enter()
方法比较长,所以我们一段一段来分析。以下代码片段均来自于hotspot/cpu/x86/macroAssembler_x86.cpp::biased_locking_enter
中。
- 首先判断Mark Word中的后三位(是否偏向锁+锁标志位)的值是否为5,即是否为偏向锁状态,如果是则执行后面fast_enter的逻辑,如果不是则执行第2步
1 |
|
- 判断锁对象Mark Word中是否包含当前线程地址,最后三位标志位是否相同,且epoch值和类的epoch值是否相等。如果都相同,那么当前线程持有该偏向锁,可以直接返回。不然执行第3步
1 | // 将类的prototype_header(Mark Word)加载到tmp_reg中 |
需要注意的是这里会得到一个异或结果header_reg,会在后面的步骤中使用到。
- 判断类对象是否支持偏向锁,如果不支持,则跳转到第6步执行移除偏向锁的逻辑。 如果支持则跳转到第4步执行
1 | testptr(header_reg, markOopDesc::biased_lock_mask_in_place); |
header_reg中存储的是(当前线程id + prototype_header中的(epoch + 分代年龄 + 偏向锁标志 + 锁标志位)) 和 锁对象 Mark Word异或的结果,我们要查看后三位(biased_lock_mask_in_place的值是111)的结果是否为0,如果不为0,表示之前异或时锁对象的Mark Word后三位和对象所属类的后三位不一致,所以对象所属类不再支持偏向锁,此时需要跳转到try_revoke_bias进行移除偏向锁操作。
这个testptr的实现实际上是获取第一个参数多少位的值。多少位是根据第二个参数的二进制长度来决定的。
- 执行到这里表示锁对象以及类对象都支持偏向锁,但是并不是偏向的当前线程。所以接下来会判断异或结果中的epoch是否为0,如果为0,则跳转到第5步执行。如果不为0,则证明锁过期了,跳转到第7步执行重新偏向逻辑
1 | // 测试锁对象的epoch值和锁对象类的epoch是否相等,如果不相等,则证明锁过期了,需要重新偏向 |
- 表明锁对象还未偏向任何线程,则可以尝试去获取锁,使得对象偏向当前线程
1 | // 取出对象Mark Word中除线程地址之外的其他位 |
try_revoke_bias使用CAS操作,重置mark word。撤销偏向锁后后续所有操作都走轻量级锁的加锁过程
try_revoke_bias和try_rebias的代码定义也在biased_locking_enter中
1 | bind(try_revoke_bias); |
- try_rebias就是将使得锁对象重新偏向当前线程,如果失败则走slow_case(InterpreterRuntime::monitorenter)进行偏向锁撤销逻辑
1 |
|
偏向锁的撤销
slow_case
(偏向锁的撤销)的逻辑是在InterpreterRuntime::monitorente
r中
1 | IRT_ENTRY_NO_ASYNC(void, InterpreterRuntime::monitorenter(JavaThread* thread, BasicObjectLock* elem)) |
BiasedLocking::revoke_and_rebias
也会再重试下看能否使用偏向锁,逻辑基本和上面分析的一致,你要是看了这里面的代码你还会发现如果你调用了System.identityHashCode()
是会移除偏向锁的。
由于偏向锁的移除需要在全局安全点的时候执行,所以如果当有大量线程竞争同一个锁资源时,我们可以通过关闭偏向锁来调优系统性能。
接下来我们来看revoke_at_safepoint
会做哪些事情
update_heuristics()
方法会将类对象上revoke次数加1
1 |
|
- 如果撤销次数等于
BiasedLockingBulkRebiasThreshold
(默认20),则认为类对象还可以重偏向,因此要做以下操作(bulk rebias)
1 | if (klass->prototype_header()->has_bias_pattern()) { |
在bulk rebias过程中,首先会将类对象的epoch值加1,然后遍历所有线程的栈,找到所有该类对象的实例,将它们的epoch值加1,最后会移除掉锁对象的偏向信息。
如果你想查看bulk revoke bias
的过程以及结果,你可以使用 这个回答(https://stackoverflow.com/questions/46312817/does-java-ever-rebias-an-individual-lock)中的代码
- 如果类对象的撤销次数等于
BiasedLockingBulkRevokeThreshold
,则认为类对象不合适使用偏向锁,因此要做bulk revoke
代码和上面的类似,我就不贴出来了,主要做下面两件事情
- 将类对象的prototype header设置为不可偏向状态
- 遍历所有线程的栈,找到所有类的实例,修改mark word的状态位为001以及对应的lock record,并将偏向锁修改为轻量级锁
轻量级锁
轻量级锁的代码实现是在slow_enter
方法里面
1 |
|
首先判断Mark Word是否是中立的,即Mark Word的最后三个字节的值是否为1(001),如果是中立的,则表示此时处于未锁定,且不可偏向。
因此首先会将锁对象的mark word放入到lock对象(这就是我们常说的Lock Record)的displaced_header
属性中,然后使用CAS将对象的Mark Word更新为指向Lock Record的指针,如果更新成功,表示这个线程就拥有了该对象的锁。并且Mark Word的锁标志位(Mark Word的最后2bit)将转变为00,即表示此对象处于轻量级锁定状态。
重量级锁
如果CAS更新失败,就会膨胀称为重量级锁了,锁标志的状态值也变成10,Mark Word中存储的就是指向重量级锁的指针,后面等待锁的线程也要进入阻塞状态。
1 | ObjectSynchronizer::inflate(THREAD, |
inflate主要是一些状态的判断,看注释还是比较容易理解的,我们重点看下enter函数中的执行逻辑
1 |
|
在重量级锁的判定中,不会马上去申请锁,而是会先自适应自旋几次看能否获取到锁,如果不能再去申请锁。
自适应的自旋锁,它会由前一次在同一个锁上的自旋时间以及锁的拥有者状态来决定,如果同一个锁上自旋刚获得,那么就认为这次也有很大几率获取到,就多自旋几次,如果对于某个锁说,自旋很少获取到,就认为没戏,就不自旋了,直接去挂起了。
1 | for (;;) { |
然后再去申请锁之前还要自旋(贼心不死),最后没成功才会park当前线程,而park的实现就是我们之前文章提到过的pthread的实现。
1 | void os::PlatformEvent::park() { |
自旋状态还带来另外一个副作用,那便是不公平的锁机制。处于阻塞状态的线程,并没有办法立刻竞争被释放的锁。然而,处于自旋状态的线程,则很有可能优先获得这把锁。
当线程获取到重量级锁之后就可以执行方法了,但是即使锁被释放之后也不会被恢复到最初的那种无锁状态了
好消息和坏消息
我们可以看到偏向锁非常之负责,为了支持偏向锁整个代码复杂度大幅度提升,而许多受益于偏向锁的应用程序都是早期Java集合api,比如HashTable,Vector等。
所以好消息是在JDK15就把偏向锁禁用了,并在以后删除它。
坏消息是现在大部分应用使用的都是JDK8,并且还会使用很多年。
巨人的肩膀
1.《深入理解JVM虚拟机》
2.《深入拆解Java虚拟机》
3. https://stackoverflow.com/questions/46312817/does-java-ever-rebias-an-individual-lock
4. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.94.8487&rep=rep1&type=pdf
5. https://createchance.github.io/post/java-并发之基石篇
6. https://zhuanlan.zhihu.com/p/34662715
7. https://www.zhihu.com/question/55075763