全局一致性快照机制
网上文章已经很多了,这里只做以前阅读paper的总结。
如何确定分布式系统中事件的先后顺序
这个问题要解决的是如何决定快照是属于哪一时间范围的,那么在flink中是通过发送事件消息来决定分布式快照的时间一致性,这也是要首先理解逻辑时钟的一个原因。
Chandy-Lamport算法
前提
通道与进程不会出现故障,通信可靠
通道是单向FIFO通道
任意两进程有一个通道连接
任意进程可在任意时间开始一个全局快照
快照异步执行
消息
- 接受消息
从其他进程发送的消息 - 发送消息
向其他进程发送的消息 - marker消息
标记消息
Chandy-Lamport算法
- 发起Marker(假设此节点为Node i)
1. 节点对本地进程生成快照,然后给所有其他节点发送一条<Marker>消息
2. 对于所有从其他节点发送过来的消息,和本地快照一并记录下来;
3. 如果此节点收到了从Node j (j != i)发送过来的一条<Marker>消息,则停止记录信道Node j->Node i上的消息。
接受Marker节点Node j (j != i)
1. 如果Node j第一次从信道Ck->j (k != j)上收到了<Marker>消息,则对本地进程生成快照,然后给所有其他节点发送一条<Marker>消息;
2. 对于所有从其他节点l (l != k)发送过来的消息,和本地快照一并记录下来;
3. 如果此节点上收到了从Node l (l != k)发送过来的一条<Marker>消息,则停止记录信道Node l->Node j上的消息。
- 快照完成
当所有的节点都从其他节点收到了<Marker>以后,算法停止,分布式系统的快照生成完成。
在一个系统中可以有多个快照同时进行,发起节点也可以不同,只要在发起快照时给它赋予一个全局唯一的ID,然后发起节点把这个ID附在<Marker>消息上,同时每个节点在做本地快照时在快照副本上记录这是对于哪一个ID生成的副本,然后也把ID附在发送出的<Marker>消息上。