聊聊 Kafka： Consumer 源码解析之 Rebalance 机制

一、前言

我们上一篇分析了 Consumer 如何加入 Consumer Group，其实上一篇是一个很宏观的东西，主要讲 ConsumerCoordinator 怎么与 GroupCoordinator 通信。等等，老周，ConsumerCoordinator 和 GroupCoordinator 是个啥玩意？这两个组件分别是 Consumer、Kafka Broker 的协调器，说白了就是我们设计模式中的门面模式，具体的内容可以看上一篇回顾下。今天这一篇主要讲上一篇 Consumer 如何加入 Consumer Group 中的 Rebalance 机制，其实上一篇讲了大概了，这一篇更深入的来说一说 Rebalance 机制的具体细节。

如果你是一个有一定经验的程序员，Rebalance 机制我觉得可以作为一道面试题来考察，而且还是有一定难度的。但是也不需要妄自菲薄，跟着老周的这篇文章下来，相信你一定可以拿下它的。

但有些读者确实觉得还是有一定难度，别着急，先看下下面 Kafka 的拓扑结构，这个结构很清晰了吧，如果你对 Kafka 的拓扑结构还不了解，那我建议你先别往下看了，先把 Kafka 的拓扑结构搞清楚，或者先看老周前面的几篇文章再来继续阅读，我觉得效果会更好。

在这里插入图片描述

这一篇主要从以下几点来聊一聊 Rebalance 机制：

什么是 Rebalance 机制？
触发 Rebalance 机制的时机
Group 状态变更
旧版消费者客户端的问题
Rebalance 机制的原理
Broker 端重平衡场景

二、什么是 Rebalance 机制？

Rebalance 本质上是一种协议，规定了一个 Consumer Group 下的所有 Consumer 如何达成一致，来分配订阅 Topic 的每个分区。

当集群中有新成员加入，或者某些主题增加了分区之后，消费者是怎么进行重新分配消费的？这里就涉及到重平衡（Rebalance）的概念，下面我就给大家讲解一下什么是 Kafka 重平衡机制。

在这里插入图片描述

从图中可以找到消费组模型的几个概念：

同一个消费组，一个分区只能被一个消费者订阅消费，但一个消费者可订阅多个分区，也就是说每条消息只会被同一个消费组的某一个消费者消费，确保不会被重复消费；
一个分区可被不同消费组订阅，这里有种特殊情况，假如每个消费组只有一个消费者，这样分区就会广播到所有消费者上，实现广播模式消费。

要想实现以上消费组模型，那么就要实现当外部环境变化时，比如主题新增了分区，消费组有新成员加入等情况，实现动态调整以维持以上模型，那么这个工作就会交给 Kafka 重平衡（Rebalance）机制去处理。

在这里插入图片描述

从图中可看出，Kafka 重平衡是外部触发导致的，下面来看下触发 Kafka 重平衡的时机有哪些。

三、触发 Rebalance 机制的时机

有新的 Consumer 加入 Consumer Group
有 Consumer 宕机下线。Consumer 并不一定需要真正下线，例如遇到长时间的 GC、网络延迟导致消费者长时间未向 GroupCoordinator 发送 HeartbeatRequest 时，GroupCoordinator 会认为 Consumer 下线。
有 Consumer 主动退出 Consumer Group（发送 LeaveGroupRequest 请求）。比如客户端调用了 unsubscribe() 方法取消对某些主题的订阅。
Consumer 消费超时，没有在指定时间内提交 offset 偏移量。
Consumer Group 所对应的 GroupCoordinator 节点发生了变更。
Consumer Group 所订阅的任一主题或者主题的分区数量发生变化。

四、Group 状态变更

4.1 消费端

在 Consumer 侧的门面 ConsumerCoordinator，它继承了 AbstractCoordinator 抽象类。在协调器 AbstractCoordinator 中的内部类 MemberState 中我们可以看到协调器的四种状态，分别是未注册、重分配后没收到响应、重分配后收到响应但还没有收到分配、稳定状态。

在这里插入图片描述

上述消费端的四种状态的转换如下图所示：

在这里插入图片描述

4.2 服务端

对于 Kafka 服务端的 GroupCoordinator 则有五种状态 Empty、PreparingRebalance、CompletingRebalance、Stable、Dead。他们的状态转换如下图所示：

在这里插入图片描述

状态	含义
Empty	组内没有任何成员，但消费者组可能存在已提交的位移数据，而且这些位移数据尚未过期。
Dead	同样是组内没有任何成员，但组的元数据信息已经在协调者端被移除。协调者组件保存着向它注册过的所有组信息，所谓的元数据信息就类似这个注册信息。
PreparingRebalance	消费者组准备开启重平衡，此时所有成员都要重新请求加入消费者组。
CompletingRebalance	消费者组下所有成员已经加入，各个成员正在等待分配方案。该状态在老一点的版本中称为 AwaitingSync，它和 CompletingRebalance 是等价的。
Stable	消费组的稳定状态。该状态表明重平衡已经完成，组内各成员能够正常消费数据了。

在这里插入图片描述

一个消费者组最开始是 Empty
重平衡开启后，会置于 PreparingRebalance 等待成员加入。
之后变更到 CompletingRebalance 等待分配方案
最后流转到 Stable 完成 Rebalance
当有成员变动时，消费者组状态从 Stable 变为 PreparingRebalance。
- 此时所有现存成员需要重新申请加入组
- 当所有组成员都退出组后，消费者组状态为 Empty。
消费者组处于 Empty 状态，Kafka 会定期自动删除过期 offset。

五、旧版消费者客户端的问题

ConsumerCoordinator 与 GroupCoordinator 的概念是针对 Kafka 0.9.0 版本后的消费者客户端而言的，我们暂且把 Kafka 0.9.0 版本之前的消费者客户端称为旧版消费者客户端。旧版消费者客户端是使用 Zookeeper 的监听器（Watcher）来实现这些功能的。

每个消费组 <group> 在 Zookeeper 中维护了一个 /consumers/<group>/ids 路径，在此路径下使用临时节点记录隶属于此消费组的消费者的唯一标识 consumerldString , consumerldString 由消费者启动时创建。消费者的唯一标识由 consumer.id+主机名+时间戳+UUID的部分信息 构成，其中 consumer.id 是旧版消费者客户端中的配置，相当于新版客户端中的 client.id。比如某个消费者的唯一标识为 consumerld_localhost-1510734527562-64b377f5，那么其中 consumerld 为指定的 consumer.id, localhost 为计算机的主机名，1510734527562代表时间戳，而 64b377f5 表示 UUID 的部分信息。

下图与 /consumers/<group>/ids 同级的还有两个节点：owners 和 offsets

/consumers/<group>/owners 路径下记录了分区和消费者的对应关系
/consumers/<group>/offsets 路径下记录了此消费组在分区中对应的消费位移

在这里插入图片描述

每个 broker、主题和分区在 Zookeeper 中也都对应一个路径：

/brokers/ids/<id>记录了 host、port 及分配在此 broker 上的主题分区列表；
/brokers/topics/<topic> 记录了每个分区的 leader 副本、ISR 集合等信息。
/brokers/topics/<topic>/partitions/<partition>/state 记录了当前 leader 副本、leader epoch 等信息。

每个消费者在启动时都会在 /consumers/<group>/ids 和 /brokers/ids 路径上注册一个监听器。当 /consumers/<group>/ids 路径下的子节点发生变化时，表示消费组中的消费者发生了变化；当 /brokers/ids 路径下的子节点发生变化时，表示 broker 出现了增减。这样通过 Zookeeper 所提供的 Watcher，每个消费者就可以监听消费组和 Kafka 集群的状态了。

这种方式下每个消费者对 Zookeeper 的相关路径分别进行监听，当触发再均衡操作时，一个消费组下的所有消费者会同时进行再均衡操作，而消费者之间并不知道彼此操作的结果，这样可能导致 Kafka 工作在一个不正确的状态。与此同时，这种严重依赖于 Zookeeper 集群的做法还有两个比较严重的问题。

羊群效应（Herd Effect）：所谓的羊群效应是指 Zookeeper 中一个被监听的节点变化，大量的 Watcher 通知被发送到客户端，导致在通知期间的其他操作延迟，也有可能发生类似死锁的情况。
脑裂问题（Split Brain）：消费者进行再均衡操作时每个消费者都与 Zookeeper 进行通信以判断消费者或 broker 变化的情况，由于 Zookeeper 本身的特性，可能导致在同一时刻各个消费者获取的状态不一致，这样会导致异常问题发生。

六、Rebalance 机制的原理

Kafka 0.9.0 版本后的消费者客户端对此进行了重新设计，将全部消费组分成多个子集，每个消费组的
子集在服务端对应一个 GroupCoordinator 对其进行管理，GroupCoordinator 是 Kafka 服务端中用于管理消费组的组件。而消费者客户端中的 ConsumerCoordinator 组件负责与 GroupCoordinator 进行交互。

Rebalance 完整流程需要 Consumer & Coordinator 共同完成
Consumer 端 Rebalance 步骤
- 加入组：对应 JoinGroup 请求
- 等待 Leader Consumer 分配方案：对应 SyncGroup 请求
当组内成员加入组时，Consumer 向协调者发送 JoinGroup 请求。
每个 Consumer 会上报自己订阅的 topic
Coordinator 收集到所有 JoinGroup 请求后，从这些成员中选择一个担任消费者组的 Leader
- 通常第一个发送 JoinGroup 请求的自动成为 Leader
Leader Consumer 的任务是收集所有成员的 topic，根据信息制定具体的 partition consumer 分配方案。
选出 Leader 后，协调者把所有 topic 信息封装到 JoinGroup Response 中，发送给 Leader。
Leader Consumer 做出统一分配方案，进入到 SyncGroup 请求。
Leader Consumer 向协调者发送 SyncGroup，将分配方案发给协调者。
其他成员也会发出 SyncGroup 请求
协调者以 SyncGroup Response 的方式将方案下发给所有成员

在这里插入图片描述

在这里插入图片描述
所有成员成功接收到分配方案，消费者组进入 Stable 状态，开始正常消费。

具体的源码分析，可以看我上一篇分析的 Consumer 如何加入 Consumer Group 文章。

七、Broker 端重平衡场景

7.1 新成员加入

消费者组处于 Stable 之后有新成员加入

在这里插入图片描述

7.2 组成员主动离开

主动离开：Consumer Instance 通过调用 close() 方法通知协调者退出
该场景涉及第三个请求：LeaveGroup 请求

在这里插入图片描述

7.3 组成员崩溃离开

协调者需要等待一段时间才能感知
这个时间段由 Consumer 端参数 sessionn.timeout.ms 控制
Kafka 不会超过上述参数时间感知崩溃
处理流程相同

在这里插入图片描述

7.4 Rebalance 时组成员提交 offset

Rebalance 开启时，协调者会给予成员一段缓冲时间，要求每个成员在这段时间内快速上报自己的 offset。
再开启正常的 JoinGroup/SyncGroup 请求

在这里插入图片描述

好了，Rebalance 机制就先说这么多了，下一篇会来聊一聊如何避免重平衡。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,968评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,601评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,220评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,416评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,425评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,144评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,432评论 3赞 401
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,088评论 0赞 261
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,586评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,028评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,137评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,783评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,343评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,333评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,559评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,595评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,901评论 2赞 345

聊聊 Kafka： Consumer 源码解析之 Rebalance 机制

一、前言

二、什么是 Rebalance 机制？

三、触发 Rebalance 机制的时机

四、Group 状态变更

4.1 消费端

4.2 服务端

五、旧版消费者客户端的问题

六、Rebalance 机制的原理

七、Broker 端重平衡场景

7.1 新成员加入

7.2 组成员主动离开

7.3 组成员崩溃离开

7.4 Rebalance 时组成员提交 offset

推荐阅读更多精彩内容