点击围观!腾讯 TAPD 助力金融行业研发提效、敏捷转型最佳实践! 了解详情
写点什么

一个 Java 线程池 bug 引发的 GC 机制思考

  • 2020-01-02
  • 本文字数:5254 字

    阅读完需:约 17 分钟

一个 Java 线程池bug引发的 GC 机制思考

问题描述

前几天,在帮同事排查一个线上偶发的线程池错误


逻辑很简单,线程池执行了一个带结果的异步任务。但是最近有偶发的报错:


java.util.concurrent.RejectedExecutionException: Task java.util.concurrent.FutureTask@a5acd19 rejected from java.util.concurrent.ThreadPoolExecutor@30890a38[Terminated, pool size = 0, active threads = 0, queued tasks = 0, completed tasks = 0]


本文中的模拟代码已经问题都是在 HotSpot java8 (1.8.0_221)版本下模拟 &出现的


下面是模拟代码,通过 Executors.newSingleThreadExecutor 创建一个单线程的线程池,然后在调用方获取 Future 的结果


public class ThreadPoolTest {
public static void main(String[] args) { final ThreadPoolTest threadPoolTest = new ThreadPoolTest(); for (int i = 0; i < 8; i++) { new Thread(new Runnable() { @Override public void run() { while (true) {
Future<String> future = threadPoolTest.submit(); try { String s = future.get(); } catch (InterruptedException e) { e.printStackTrace(); } catch (ExecutionException e) { e.printStackTrace(); } catch (Error e) { e.printStackTrace(); } } } }).start(); }
//子线程不停gc,模拟偶发的gc new Thread(new Runnable() { @Override public void run() { while (true) { System.gc(); } } }).start(); }
/** * 异步执行任务 * @return */ public Future<String> submit() { //关键点,通过Executors.newSingleThreadExecutor创建一个单线程的线程池 ExecutorService executorService = Executors.newSingleThreadExecutor(); FutureTask<String> futureTask = new FutureTask(new Callable() { @Override public Object call() throws Exception { Thread.sleep(50); return System.currentTimeMillis() + ""; } }); executorService.execute(futureTask); return futureTask; }
}
复制代码

分析 &疑问

第一个思考的问题是:线程池为什么关闭了,代码中并没有手动关闭的地方。看一下 Executors.newSingleThreadExecotor的源码实现:


public static ExecutorService newSingleThreadExecutor() {    return new FinalizableDelegatedExecutorService            (new ThreadPoolExecutor(1, 1,                    0L, TimeUnit.MILLISECONDS,                    new LinkedBlockingQueue<Runnable>()));}
复制代码


这里创建的实际上是一个 FinalizableDelegatedExecutorService,这个包装类重写了 finalize函数,也就是说这个类会在被 GC 回收之前,先执行线程池的 shutdown 方法。


问题来了,GC 只会回收不可达(unreachable)的对象,在 submit函数的栈帧未执行完出栈之前, executorService应该是可达的才对。


对于此问题,先抛出结论:


当对象仍存在于作用域(stack frame)时, finalize也可能会被执行


oracle jdk 文档中有一段关于 finalize 的介绍:


https://docs.oracle.com/javas


A reachable object is any object that can be accessed in any potential continuing computation from any live thread.

Optimizing transformations of a program can be designed that reduce the number of objects that are reachable to be less than those which would naively be considered reachable. For example, a Java compiler or code generator may choose to set a variable or parameter that will no longer be used to null to cause the storage for such an object to be potentially reclaimable sooner.


大概意思是:可达对象(reachable object)是可以从任何活动线程的任何潜在的持续访问中的任何对象;java 编译器或代码生成器可能会对不再访问的对象提前置为 null,使得对象可以被提前回收


也就是说,在 jvm 的优化下,可能会出现对象不可达之后被提前置空并回收的情况


举个例子来验证一下(摘自https://stackoverflow.com/questions/24376768/can-java-finalize-an-object-when-it-is-still-in-scope):


class A {    @Override protected void finalize() {        System.out.println(this + " was finalized!");    }
public static void main(String[] args) throws InterruptedException { A a = new A(); System.out.println("Created " + a); for (int i = 0; i < 1_000_000_000; i++) { if (i % 1_000_00 == 0) System.gc(); } System.out.println("done."); }}
//打印结果Created A@1be6f5c3A@1be6f5c3 was finalized!//finalize方法输出done.
复制代码


从例子中可以看到,如果 a 在循环完成后已经不再使用了,则会出现先执行 finalize 的情况;虽然从对象作用域来说,方法没有执行完,栈帧并没有出栈,但是还是会被提前执行。


现在来增加一行代码,在最后一行打印对象 a,让编译器/代码生成器认为后面有对象 a 的引用


...System.out.println(a);
//打印结果Created A@1be6f5c3done.A@1be6f5c3
复制代码


从结果上看,finalize 方法都没有执行(因为 main 方法执行完成后进程直接结束了),更不会出现提前 finalize 的问题了


基于上面的测试结果,再测试一种情况,在循环之前先将对象 a 置为 null,并且在最后打印保持对象 a 的引用


A a = new A();System.out.println("Created " + a);a = null;//手动置nullfor (int i = 0; i < 1_000_000_000; i++) {    if (i % 1_000_00 == 0)        System.gc();}System.out.println("done.");System.out.println(a);
//打印结果Created A@1be6f5c3A@1be6f5c3 was finalized!done.null
复制代码


从结果上看,手动置 null 的话也会导致对象被提前回收,虽然在最后还有引用,但此时引用的也是 null 了




现在再回到上面的线程池问题,根据上面介绍的机制,在分析没有引用之后,对象会被提前 finalize


可在上述代码中,return 之前明明是有引用的 executorService.execute(futureTask),为什么也会提前 finalize 呢?


猜测可能是由于在 execute 方法中,会调用 threadPoolExecutor,会创建并启动一个新线程,这时会发生一次主动的线程切换,导致在活动线程中对象不可达


结合上面 Oracle Jdk 文档中的描述“可达对象(reachable object)是可以从任何活动线程的任何潜在的持续访问中的任何对象”,可以认为可能是因为一次显示的线程切换,对象被认为不可达了,导致线程池被提前 finalize 了


下面来验证一下猜想:


//入口函数public class FinalizedTest {    public static void main(String[] args) {        final FinalizedTest finalizedTest = new FinalizedTest();        for (int i = 0; i < 8; i++) {            new Thread(new Runnable() {                @Override                public void run() {                    while (true) {                        TFutureTask future = finalizedTest.submit();                    }                }            }).start();        }        new Thread(new Runnable() {            @Override            public void run() {                while (true) {                    System.gc();                }            }        }).start();    }    public TFutureTask submit(){        TExecutorService TExecutorService = Executors.create();        TExecutorService.execute();        return null;    }}
//Executors.java,模拟juc的Executorspublic class Executors { /** * 模拟Executors.createSingleExecutor * @return */ public static TExecutorService create(){ return new FinalizableDelegatedTExecutorService(new TThreadPoolExecutor()); }
static class FinalizableDelegatedTExecutorService extends DelegatedTExecutorService {
FinalizableDelegatedTExecutorService(TExecutorService executor) { super(executor); }
/** * 析构函数中执行shutdown,修改线程池状态 * @throws Throwable */ @Override protected void finalize() throws Throwable { super.shutdown(); } }
static class DelegatedTExecutorService extends TExecutorService {
protected TExecutorService e;
public DelegatedTExecutorService(TExecutorService executor) { this.e = executor; }
@Override public void execute() { e.execute(); }
@Override public void shutdown() { e.shutdown(); } }}
//TThreadPoolExecutor.java,模拟juc的ThreadPoolExecutorpublic class TThreadPoolExecutor extends TExecutorService {
/** * 线程池状态,false:未关闭,true已关闭 */ private AtomicBoolean ctl = new AtomicBoolean();
@Override public void execute() { //启动一个新线程,模拟ThreadPoolExecutor.execute new Thread(new Runnable() { @Override public void run() {
} }).start(); //模拟ThreadPoolExecutor,启动新建线程后,循环检查线程池状态,验证是否会在finalize中shutdown //如果线程池被提前shutdown,则抛出异常 for (int i = 0; i < 1_000_000; i++) { if(ctl.get()){ throw new RuntimeException("reject!!!["+ctl.get()+"]"); } } }
@Override public void shutdown() { ctl.compareAndSet(false,true); }}
复制代码


执行若干时间后报错:


Exception in thread "Thread-1" java.lang.RuntimeException: reject!!![true
复制代码


从错误上来看,“线程池”同样被提前 shutdown 了,那么一定是由于新建线程导致的吗?


下面将新建线程修改为 Thread.sleep测试一下:


//TThreadPoolExecutor.java,修改后的execute方法public void execute() {    try {        //显式的sleep 1 ns,主动切换线程        TimeUnit.NANOSECONDS.sleep(1);    } catch (InterruptedException e) {        e.printStackTrace();    }    //模拟ThreadPoolExecutor,启动新建线程后,循环检查线程池状态,验证是否会在finalize中shutdown    //如果线程池被提前shutdown,则抛出异常    for (int i = 0; i < 1_000_000; i++) {        if(ctl.get()){            throw new RuntimeException("reject!!!["+ctl.get()+"]");        }    }}
复制代码


执行结果一样是报错


Exception in thread "Thread-3" java.lang.RuntimeException: reject!!![true]
复制代码


由此可得,如果在执行的过程中,发生一次显式的线程切换,则会让编译器/代码生成器认为外层包装对象不可达

总结

虽然 GC 只会回收不可达 GC ROOT 的对象,但是在编译器(没有明确指出,也可能是 JIT)/代码生成器的优化下,可能会出现对象提前置 null,或者线程切换导致的“提前对象不可达”的情况。


所以如果想在 finalize 方法里做些事情的话,一定在最后显示的引用一下对象(toString/hashcode 都可以),保持对象的可达性(reachable)


上面关于线程切换导致的对象不可达,没有官方文献的支持,只是个人一个测试结果,如有问题欢迎指出


综上所述,这种回收机制并不是 JDK 的 bug,而算是一个优化策略,提前回收而已。但 Executors.newSingleThreadExecutor的实现里通过 finalize 来自动关闭线程池的做法是有 Bug 的,在经过优化后可能会导致线程池的提前 shutdown,从而导致异常。


线程池的这个问题,在 JDK 的论坛里也是一个公开但未解决状态的问题https://bugs.openjdk.java.net/browse/JDK-8145304


不过在 JDK11 下,该问题已经被修复:


JUC  Executors.FinalizableDelegatedExecutorServicepublic void execute(Runnable command) {    try {        e.execute(command);    } finally { reachabilityFence(this); }}
复制代码


本文转载自公众号玉刚说(ID:YugangTalk)。


原文链接


https://mp.weixin.qq.com/s/idDL9uJJb5KKOFY5tLlyKw


2020-01-02 09:304356

评论 9 条评论

发布
用户头像
reachabilityFence放在finally里,就不会阻止jvm在这个线程还没有执行到finally之前就对对象进行finalize操作吗?
2022-09-01 20:08 · 上海
回复
用户头像
用了reachabilityFence后,到需要回收对象的时候怎么办?
2022-09-01 20:06 · 上海
回复
用户头像
结论和分析过程似乎都不正确,参考R大的回复:
Java 中, 为什么一个对象的实例方法在执行完成之前其对象可以被 GC 回收? - RednaxelaFX的回答 - 知乎
https://www.zhihu.com/question/51244545/answer/126055789
2020-06-05 16:30
回复
感谢回复,仔细阅读了R大的回答,学习了很多。不过文中的验证方式和结果R大的回答里貌似并没有提到,而且文中对提前置空(不可达)的解释应该也没问题;R大更系统全面的解释了这个现象的原因,R大牛批!
2021-02-08 16:30
回复
用户头像
if (workerCountOf(c) < corePoolSize) {
if (addWorker(command, true))
return;
c = ctl.get();
}
这个问题我已经复现了,但是线程start以后应该会直接return,为什么会抛出RejectException
2020-01-02 17:47
回复
不太理解线程池的代码为什么会走到RejectException处
2020-01-02 22:00
回复
可能还没到addWorker就被gc,shutdown了
2020-01-20 15:40
回复
用户头像
这个问题在使用JDK11的情况下,不能重现。
2020-01-02 13:12
回复
文末有提到,jdk11下该问题已经修复了
2020-01-02 15:08
回复
没有更多了
发现更多内容

Java基础(五)| 方法的定义、调用及重载

timerring

Java 10月月更 方法重载

快速一览:织信低代码联合WPS推出多场景办公轻应用

优秀

低代码 wps

阿里云事件生态再升级:使用 EventBridge 驱动全量云产品

阿里巴巴云原生

阿里云 云原生 EventBridge

如何“阅读”数学?:上海顶尖中学学生的阅读笔记

图灵教育

数学 青少年

【从0到1学算法】4.Bubble Sort算法-上

Geek_65222d

10月月更

你对“低代码”存在哪些误解?

优秀

低代码

Baklib分享|知识管理是企业发展的风向标

Baklib

如何“阅读”数学?:上海顶尖中学学生的阅读笔记

图灵社区

数学 青少年

Flowable 按角色分配任务

江南一点雨

spring springboot workflow flowable

华为云从入门到实战 | 云服务概述与华为云搭建Web应用

TiAmo

华为 华为云 云开发 10月月更

权威认可!OceanBase 通过分布式数据库金融标准验证

OceanBase 数据库

ES6中Let命令基本用法

默默的成长

前端 ES6 10月月更

Vue 2x 中使用 render 和 jsx 的最佳实践 (1)

默默的成长

Vue 前端 10月月更

cstdio的源码学习分析10-格式化输入输出函数fprintf---宏定义/辅助函数分析02

桑榆

源码刨析 10月月更 C++

【10.7-10.14】写作社区优秀技术博文一览

InfoQ写作社区官方

优质创作周报

Baklib分享|提高工作效率,在线协作文档

Baklib

Baklib|关于帮助中心需要注意的一些细节

Baklib

Vue中的nextTick有什么作用?

CoderBin

面试 前端 Vue 3 nextTick 10月月更

DDC SDK的整体设计流程

BSN研习社

BAT加速冲刺,“智慧交通”赛道谁能笑到最后

硬科技星球

企业号十月PK榜,年度榜单倒计时开始!

InfoQ写作社区官方

企业号十月PK榜

三步玩转:如何通过Flink OceanBase CDC连接器快速查询数据

OceanBase 数据库

当 WASM 遇见 eBPF:使用 WebAssembly 编写、分发、加载运行 eBPF 程序 | 龙蜥技术

OpenAnolis小助手

开源 操作系统 内核 ebpf Wasm

SAP | 认识abap工作台(上)

暮春零贰

SAP abap 10月月更

Vue 中const 命令

默默的成长

前端 Vue 3 10月月更

深入浅出理解Java并发AQS的独占锁模式

JAVA旭阳

Java 并发 10月月更

Milvus 2.1 版本更新 - 简单可信赖、性能持续提升

Zilliz

人工智能 开源项目 Milvus 版本更新 向量数据库

Baklib|构建在线客户服务,产品知识库至关重要

Baklib

【DBA100人】台枫:DBA不仅要懂运维还得懂代码

OceanBase 数据库

图解ReentrantLock公平锁和非公平锁实现

JAVA旭阳

Java 并发 10月月更

leetcode 146. LRU Cache LRU 缓存 (简单)

okokabcd

LeetCode 数据结构与算法

一个 Java 线程池bug引发的 GC 机制思考_编程语言_空无_InfoQ精选文章