前一段时间线上服务器总是不定时崩溃,崩溃之后就需要对服务器重启。为什么服务器总是崩溃,这个以后单独讨论。在这里讨论另外一个问题。在服务器重启过程中,Netty物联网项目在硬件设备登录时候总是出现问题,管理后台客户端就是登不上服务器,最终导致其他硬件设备一直处于等待阶段,这是为什么呢?1、先来分析一下架构设计Netty物联网服务器启动成功之后,不仅要被众多硬件设备登录,还需被管理后台登录。管理后台不仅仅是管理后台,还是Netty的一个客户端。硬件设备只有一个唯一标识,它登录Netty服务器后,需要等管理后台客户端登录Netty服务器成功之后,获取到自己的设备信息,才能正常使用。
架构草图也就是说硬件设备登录Netty服务器只是第一步,第二步还需要管理后台客户端和Netty服务器建立连接,只有管理后台客户端和Netty服务器建立连接成功,并且从管理后台获取到硬件设备的信息,硬件设备的登录处理才能完成。如果管理后台客户端没有和Netty服务器正常通讯,硬件设备只能等待,等待10秒又10秒,直到管理后台登录成功,硬件设备和Netty服务器的通讯才能恢复正常。2、再来分析Netty的通讯机制Netty服务器启动时,会创建两个线程池,Boss线程池和Worker线程池。Boss线程池负责TCP连接的建立,处理三次握手。Worker线程池负责处理I/O事件,包括登录处理,数据传输,还有其他事务的处理。
Netty服务器启动后,管理后台和硬件设备同时向服务器发送TCP连接请求,服务器端的Boss线程池也处理了TCP连接请求,完成了三次握手。管理后台客户端和硬件设备此时进入第二个环节,也就是进入Worker线程池,开始IO事件处理。IO事件处理的第一件事,处理登录事件。
问题也就出在了这里,管理后台客户端总是登录不成功,硬件设备又在等待管理后台的登录。
3、定位问题通过服务器的打印日志可以看到,硬件设备登录成功后,一直等待管理后台客户端的登录。只有管理后台客户端登录成功了,服务器才可以给管理后台客户端发送指令,获取硬件设备的基础信息,这样硬件设备才算登录完成。如果获取不到管理后台客户端的登录Session,那就一直等待。通过管理后台客户端打印的日志可以发现,登录请求已经发出去,就是久久得不到服务器端的登录响应。通过这两端的日志可以发现,服务器端的Boss线程池处理是没有问题的,TCP连接的建立、三次握手都没有问题,非常正常。
问题就出现在Worker线程池、IO事件的处理上。由于Netty服务器处理登录的IO事件在一个线程池里,而硬件设备又非常多,所有的硬件设备线程都在等,最终导致Worker线程池阻塞。换句话说,硬件设备在等待管理后台客户端的登录,管理后台客户端想登录服务器,但是Worker线程池拥挤登不上去。4、解决问题硬件设备登录Netty服务器成功,不可以直接在Worker线程池里等,要放进异步线程池等待管理后台的登录请求。就这样就把登录handler释放出来。不管有多少设备同时登录Netty服务器,管理后台随时都可以登录Netty服务器并登录成功。
最终的解决办法,在处理登录的handler里,把硬件设备的等待放入到一个新的异步线程池里。5、验证调整过代码后,把Netty服务器项目重启,管理后台客户端登录上Netty服务器后,马上得到了Netty服务的登录响应,至此管理后台客户端成功登录到Netty服务器。管理后台客户端登录Netty服务器成功后,Netty服务器可以随时给管理后台客户端发送指令,传输数据。硬件设备客户端在等待几秒后,也通过Netty服务器获取到了管理后台客户端的连接信息,并通过Netty服务器给管理后台发送指令,获取了硬件设备的基础信息,完成登录响应。硬件设备登录成功后,就开始做下一个事情,给Netty服务器发送实时数据。问题完美解决。