Kafka是一个优秀的分布式消息队列,以高并发和高性能著称,我们以简单全面的视角剖析一下Kafka框架的设计。
作为一个分布式消息队列一般有三个角色
- 服务端 即broker,负责消息的存储,消费,分区等管理
- 生产者 对于服务端来说也是一个客户端,用于将消息发送到服务端
- 消费者 用于消费生产者生产的消息
服务端
服务端的架构和Netty有些类似,其实完全可以使用Netty实现,可能是考虑到框架的依赖以及包管理的原因,Kafka实现了一个迷你版本的Netty,对于Netty知道它使用了Reator模式实现,所以kafka的服务端实现也不例外,下面我们来列举一下关键的一些类:
- SocketServer 从名字我们可以知道它是服务端管理的核心类,用于管理服务端的连接,消息的消费请求以及请求的响应等,和Netty一样里面有接待线程和工作线程,只不过将工作线程划分得更具体,分为同步集群消息的控制线程和接受处理生产和消费消息的数据线程。
- KafkaRequestHandler 这个才是真正的工作线程,也就是实质性干活的对象,SocketServer的Processer线程其实只是将请求缓存到RequestChannel,KafkaRequestHandler就是从RequestChannel的请求队列里面获取请求进行实质的请求处理,其实KafkaRequestHandler是将请求又交给了KafkaApis这个类处理,我们以发送请求为例描述一下过程:
首先请求过来将消息由Acceptor交给Processer处理,Processer将请求交给KafkaRequestHandler,KafkaRequestHandler又将响应消息交给Processer发送给客户端,有没有发现这个过程就像一个传递游戏,为什么Processer不直接将活干了,反而又KafkaRequestHandler处理事务呢?原因就是拉长战线,人多好干活,KafkaRequestHandler就像一个蓄水池的容器将所有请求稳在自己的池子里面满满处理,而Processer负责响应请求就好了,这样减轻Processer的很多负担,从而系统的吞吐量。
生产者
生产者主要有以下几个关键部件组成:
KafkaProducer 这个是生产者的主要类,用于供客户端发布消息使用,生产者发布消息必须要知道消息发布到哪里,所以其依赖于元数据管理类ProducerMetadata,同时生产者发布消息不是马上发布,需要把消息缓存到一个地方,使用得是RecordAccumulator这个消息累加器,同时它还有自己的管家Sender,Sender使用NetworkClient进行消息发送,Sender又使用SendBuilder进行消息缓存,SendBuilder使用ByteBuffer进行消息的存储,最终将消息缓存到KafkaChannel的send字段,NetworkClient又在poll方法使用Selector发送消息,最终真正的发送是在Selector的pollSelectionKeys方法完成,最终调用NetworkSend的writeTo方法,入参是TransferableChannel,这个参数从哪里来?其实来自于Selector的connect方法,它是一个java NIO的SocketChannel类,NetworkSend的writeTo方法的send其实是ByteBufferSend,它来自于SendBuilder的build方法构建,调用flushPendingSend构造产生,代码如下:
private void flushPendingSend() {
flushPendingBuffer();
if (!buffers.isEmpty()) {
ByteBuffer[] byteBufferArray = buffers.toArray(new ByteBuffer[0]);
addSend(new ByteBufferSend(byteBufferArray, sizeOfBuffers));
clearBuffers();
}
}
消费者
消费者的核心线程是KafkaConsumer,其核心方法是subscribe和poll,subscribe主要是用来进行主题订阅,里面有分区重平衡逻辑,poll方法借助于其核心组件Fetcher分区消息的拉取,它的辅助组件是ConsumerNetworkClient,其本质还是NetworkClient的poll完成实质的消息拉取,对于消费者过程相对比较简单,拉取的消息最终是缓存到Fetcher组件供KafkaConsumer使用。