ZooKeeper: 分布式应用的分布式协调服务
ZooKeeper 是一个用于分布式应用的分布式、开源的协调服务。它开放了一套简单的函数,分布式应用可以在此之上为上层服务实现分布式同步、配置维护、组服务、命名等功能。它使用了一个类似于目录树结构的文件系统作为数据模型,易于编程。它运行在java上,而且已经有了Java和C的客户端。
众所周知,协调服务是很难正确实现的。它们很容易出现条件竞争和死锁等错误。ZooKeeper 出现的目的就是解除为分布式应用实现协调服务的痛点。
设计目标
ZooKeeper is simple. ZooKeeper 允许分布式的进程通过共享命名空间层次来相互协调,共享命名空间层次有点类似于标准的文件系统。命名空间由数据寄存器组成,ZooKeeper 中的说法是 znodes,类似于文件和目录。与典型的文件系统不同,其被设计用于存储,ZooKeeper 数据存放在内存中。也就是说ZooKeeper 可以实现高吞吐量和低延迟数。
ZooKeeper 完美的实现了高性能、高可用、严格有序的访问。性能方面,ZooKeeper 可以用在大规模、分布式的系统中。可靠性方面,解决了单点障碍。严格有序意味着可以从客户端实现复杂的同步函数。
ZooKeeper is replicated. 类似于分布式进程协调,ZooKeeper 自身可被复制副本到一组主机上作为一个整体。
ZooKeeper 服务的服务端相互知道彼此的存在。他们维护了一个内存镜像的状态,连同事务日志和快照集一起持久化存储。只要大多数服务器可用,那么ZooKeeper 服务将是可用的。
客户端连接一个单独的 ZooKeeper 服务端。客户端维护了一个TCP 的连接,通过它来发送请求、获取响应、获取watch事件以及发送心跳。如果与服务端的连接断了,客户端将会连到其他的服务端。
ZooKeeper is ordered. ZooKeeper 为每个更新标记了序号,它反应了ZooKeeper 事务的顺序。并发操作可以用这个序号来实现更高层次的抽象,例如同步服务。
ZooKeeper is fast. 它在以读为主的场景下非常快。ZooKeeper 应用运行在数千台机器上,在读写比为 10:1 的时候表现最佳。
数据模型与分层命名空间
ZooKeeper 提供的命名空间非常像标准的文件系统。名字是路径元素通过斜杠(/)分割的序列。 ZooKeeper 命名空间中的每个节点都是一个唯一的路径。
节点以及临时节点
与标准的文件系统不同,ZooKeeper 命名空间中的每个节点都存有与子节点相关的数据。它就像一个文件系统允许文件变成一个目录。(ZooKeeper 为存储协调数据而设计:状态信息、配置信息、路径信息等,因此每个节点存储的数据通常都很小,量级在B到KB之间。)我们用术语znode 来指ZooKeeper 数据节点。
Znodes 的数据结构中包括:数据变更的版本号、ACL 变更以及时间戳,以便缓存验证和协调更新。每次znode数据改变,版本号递增。例如,每当客户端收到数据,它将同时收到数据的版本。
命名空间中znode存储的数据是被原子性读写的。读操作可以获得Znode相关的全部数据,写操作将覆盖全部数据。每个及诶单有一个权限控制列表( Access Control List ,ACL)来限制什么人可以干什么事。
ZooKeeper 也有临时节点的概念. 这些节点存在时间与会话一致,会话创建时znode生效。当会话结束时Znode被删除。临时节点对你实现功能非常有用,请参考[tbd]。
Conditional updates and watches
ZooKeeper 支持watches 的概念. 客户端可以在Znodes上设一个watch 。znode 改变时会触发或删除watch。当watch 被触发时,客户端会收到一个说“znode已被改变”的包。并且,如果客户端和一个Zookeeper服务器之间的连接中断时,客户端会收到一个本地通知。对于如何使用,请参考[tbd]。
保障
ZooKeeper 非常简单、迅速,这源自于它的设计目标。因此它为构建更复杂的服务提供了基础。例如为同步服务提供了一套保障:
- Sequential Consistency(顺序一致性) - 按照客户端的发送顺序进行更新。
- Atomicity(原子性)- 更新或成功或失败。不会有中间态的部分结果。
- Single System Image(单一系统镜像) - 无论客户端或服务器,连接到服务端后都能看到同样的视图。
- Reliability(可靠性) - 一旦应用一个更新,它将留存到客户端覆盖本次更新为止。
- Timeliness(时效性) - 在一段时间内保证系统的客户端视图是最新的。
更多信息以及他们怎么使用,请看[tbd]。
Simple API
ZooKeeper 其中一个设计目标是提供一个非常简单的编程接口。最终,它只支持这些操作:
_ create _ :在树的某个位置创建一个节点
_ delete _ :删除一个节点
_ exists _ :测试某个位置的节点是否存在
_ get data _ :从节点中获取数据
_ set data _ :将数据写入节点中
_ get children _ :获取子节点的列表
_ sync _ :等待数据同步
对于更深入的探讨,以及他们怎样用于高级的操作,请参阅[tbd]。
实现
ZooKeeper 组件 展示了ZooKeeper 服务的高级组件。除请求处理器以外,构成ZooKeeper 服务的每个服务端的副本集都拷贝自它的每个组件。
副本数据库是一个内存数据库,包含了整个数据树。更新日志序列化后记录在磁盘上,用来恢复数据。
每个Zookeeper服务器服务的客户端。客户端准确的连接到一个服务端后提交请求。读请求从每个服务器数据库的本地副本中响应。服务状态变更请求、写请求按照约定的协议执行。
协议的一部分,客户端的全部写请求被转到叫领导者(leader)的一个独立的服务端。其余的Zookeeper服务端,称为从服务(followers) ,从领导者(leader)那边接收消息并确认消息已收到。消息层负责在领导者发生故障时更换领导者并同步数据到从服务。
ZooKeeper 采用了一个自定义的原子消息协议。由于消息层是原子的,Zookeeper 可以保证本地副本没有偏差。当领导者收到一个写请求时,它会计算出系统何时做了写操作,并在事务中更新最新状态。
使用
ZooKeeper 的程序接口刻意简单化。With it, however, you can implement higher order operations, 通过它,你可以实现高层次的操作,例如同步服务,组成员,权限等。一些分布式应用用它: [tbd: 白皮书和视频演示中新增用途] 更多信息请看:[tbd]
性能
ZooKeeper 为高性能而设计。但它到底怎样呢?ZooKeeper 开发团队在Yahoo! 研究表明它非常优秀。(参见ZooKeeper 不同读写比例下的吞吐量)它在读大于写时,性能表现更佳,因为写操作会涉及所有服务端的状态同步。(读大于写是协调服务中典型的案例)
图 ZooKeeper 不同读写比例下的吞吐量 是一个ZooKeeper 3.2版本运行在双核 2Ghz Xeon + 2 SATA 15K RPM磁盘的服务器上的吞吐量曲线。一个磁盘专门用于存储Zookeeper日志。快照被写在系统磁盘上。共1000次 读/写请。 "Servers" 指的是一些Zookeeper 集群,这些 "Servers" 构成了Zookeeper服务。另外大约用30台机器来模拟客户端。ZooKeeper 集群的领导者(Leader)被配置为不接受客户端的连接。
在 3.2 版中 读/写 性能比 3.1之前的版本提升2倍以上。
基准也表明它也是可靠的。出错时的可靠性 显示了怎样部署一个应对各种故障的响应服务。图中标记的事件如下:
- 从服务(follower)发生故障并恢复
- 其他从服务(follower)发生故障并恢复
- 领导者(leader)发生故障;
- 两个从服务(follower)发生故障并恢复
- 其他领导者(leader)发生故障
可靠性
我们运行一个由7台机器组成的Zookeeper服务,来展示系统故障时的表现。我们运行了与之前相同饱和度的服务,但这次我们将写操作比例保持在30%,30%是我们预期工作负载的保守比例。
这幅图可以观察出一些问题。首先,如果从服务(followers)失败并快速恢复,经管有失败但Zookeeper 任然可以提供高吞吐量的服务。但更重要的是,领导者选举算法(leader election algorithm)可以使系统快速恢复,足以防止吞吐量大幅下降。我们的观察中,ZooKeeper 以低于200ms 的速度选出了领导者(leader)。第三,从服务(followers )恢复后,ZooKeeper 由于从服务(followers)恢复,它们开始处理请求,又能提高吞吐量。
ZooKeeper 项目
ZooKeeper 已被 成功的用于 许多行业应用中。 在 Yahoo! 作为 Yahoo! Message Broker 的协调和故障恢复服务。Yahoo! Message Broker是一个高可扩展性的订阅发布系统。ZooKeeper 管理着成千上万个Topics 的副本和数据交付。它为Yahoo! 爬虫提供Fetching 服务和故障恢复。一些 Yahoo! 的广告系统也在用 ZooKeeper 来实现的服务可靠性。
鼓励所有用户和开发者加入社区并贡献专业知识。更多信息请看 Apache 基金会 Zookeeper项目。
原文地址:https://zookeeper.apache.org/doc/trunk/zookeeperOver.htm