记一次开发中遇到的问题okhttp3.internal.http2.Http2Stream.waitForIo$okhttp(Http2Stream.kt660)

背景:

业务类型是类似于问答大模型那种可以流式蹦字的一个ui展示效果(类似于手机上的语音助手这种产品),业务中用的是http请求长连接,拿到下游服务的reponse后需要不断地读取其中的内容,下游不断地向其中去写。但是存在一种场景就是用户在蹦字的过程中退出应用。这种情况下我们需要回收应用的资源并将其正确关闭。但是在观测打点和回流数据时,很多正常业务的场景下野打了告警日志。下面是业务简单的代码:

    class Task implements Runnable {

        @Override
        public void run() {
            Response response = null;
            try {
                Response response = new OkHttpClient().newCall(new Request());
                InputStream inputStream = response.body().byteStream();
                byte[] bytes = new byte[1024];
                int readLen = 0;
                while (readLen = inputStream.read(bytes)) {
                    // do something
                }
            } catch (Exception ex) {
                // 打印告警日志
            } finally {
                if (response != null) {
                    response.close();
                }
            }
        }
    }
 class ProjectHolder{
        private static ThreadPoolExecutor threadPoolExecutor = new ThreadPoolExecutor(2, 4, 5, TimeUnit.MINUTES, new ArrayBlockingQueue<>(2));

        public static String status = "running";
        
        public static void run(Task task) {
                threadPoolExecutor.submit(task);
        }
        public static void destory() {
              status = "destory";
              threadPoolExecutor.shutdownNow();
              threadPoolExecutor.awaitTermination(3, TimeUnit.SECONDS);
        }
}

简单的业务代码如上,在ProjectHolder释放资源销毁的时候有可能导致业务上会打印无效告警,虽然这种是不会影响用户体验的,但是会影响回流数据和告警分析。为了优化,将业务中读取流的时候进行了一个应用状态的判断。改动如下:

    class Task implements Runnable {

        @Override
        public void run() {
            Response response = null;
            try {
                ...
                while ("running".equals(ProjectHolder.status) && readLen = inputStream.read(bytes)) {
                    // do something
                }
            } catch (Exception ex) {
                // 打印告警日志
            } finally {
                ...  
          }
        }
    }
 class ProjectHolder{
        ...
        private static volatile String status = "running";
       ...
}

本以为这样就OK了,但是会有一定的概率报这个错okhttp3.internal.http2.Http2Stream.waitForIo$okhttp(Http2Stream.kt660)的错,去stackflow上看也有一些兄弟遇到这个问题,差点以为是OKhttp的bug。但是有一个评论说原因是多线程场景下读取一个公用的connection的header。这个提醒了我,是不是多线程场景下的问题。我就去看我们项目destory的时候是通过关闭线程池的方式是通过shutdownNow()方法,这个方法和shutdown()的区别简单讲就是前者会直接interrupt当前工作的线程,后者会interrupt空闲的线程,但是允许正在执行任务的线程继续执行。两者都会拒绝接受新的任务。
这就可能会有导致问题发生的可能性,所以我将shutdownNow()方法改成shutdown()方法后测试,发现确实没有再复现上面的错误了。
但是这个无法解释报错的根因。想要知道根因的话那就只能看OKhttp的源码了。

okhttp3.internal.http2.Http2Stream#waitForIo
    void waitForIo() throws InterruptedIOException {
        try {
            this.wait();
        } catch (InterruptedException var2) {
            throw new InterruptedIOException();
        }
    }
这里会调用wait()方法将自己加入等待队列
        public long read(Buffer sink, long byteCount) throws IOException {
            if (byteCount < 0L) {
                throw new IllegalArgumentException("byteCount < 0: " + byteCount);
            } else {
                long read;
                synchronized(Http2Stream.this) {
                    Http2Stream.this.waitForIo();
                    ....
                }
            }
        }
waitForIo方法是在read()方法中去调用的。

        void receive(BufferedSource in, long byteCount) throws IOException {
                ......
                synchronized(Http2Stream.this) {
                    boolean wasEmpty = this.readBuffer.size() == 0L;
                    this.readBuffer.writeAll(this.receiveBuffer);
                    if (wasEmpty) {
                        Http2Stream.this.notifyAll();
                    }
                }
            }
        }
在receive数据的时候会调用notifyAll()方法将自己从等待队列唤醒。

所以这里的大概流程就知道了,read方法读到Response中缓存全部数据时会阻塞,将自己wait加入到等待队列中去,在收到数据时将自己notify移出等待队列再次开始工作。这样就可能在while循环条件里,阻塞在 readLen = inputStream.read(bytes)这一行的时候,业务线程已经调用wait加入了等待队列中,shutdownNow()方法将线程Interrupt了,导致OkHttp出现了这个okhttp3.internal.http2.Http2Stream$waitForIo错误。
本文用的OKHttp版本是3.14.4

下面我们写一个小demo验证我们的猜想:

public class TestDemo {
    private static Object LOCK = new Object();

    public static void main(String[] args) throws Exception {
        Runnable runnable = new Runnable() {
            @Override
            public void run() {
                try {
                    synchronized (LOCK) {
                        TimeUnit.SECONDS.sleep(2);
                        LOCK.wait();
                    }
                } catch (Exception ex) {
                    System.out.println("runnable occurs exception");
                } finally {
                    System.out.println("runnable end");
                }
            }
        };

        Runnable runnable2 = new Runnable() {
            @Override
            public void run() {
                try {
                    synchronized (LOCK) {
                        TimeUnit.SECONDS.sleep(5);
                        LOCK.notifyAll();
                    }
                } catch (Exception ex) {
                    System.out.println("runnable2 occurs exception");
                } finally {
                    System.out.println("runnable2 end");
                }
            }
        };
        Thread thread1 = new Thread(runnable);
        thread1.start();
        Thread thread2 = new Thread(runnable2);
        thread2.start();
        TimeUnit.SECONDS.sleep(3);
        thread1.interrupt(); // interrupt等待队列中的线程报错,此处注释掉可以正常运行
        System.out.println("main end");
    }
}

输出:
main end
runnable2 end
runnable occurs exception
runnable end
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容