ZooKeeper 简介

ZooKeeper: 分布式应用的分布式协调服务

ZooKeeper 是一个用于分布式应用的分布式、开源的协调服务。它开放了一套简单的函数，分布式应用可以在此之上为上层服务实现分布式同步、配置维护、组服务、命名等功能。它使用了一个类似于目录树结构的文件系统作为数据模型，易于编程。它运行在java上，而且已经有了Java和C的客户端。

众所周知，协调服务是很难正确实现的。它们很容易出现条件竞争和死锁等错误。ZooKeeper 出现的目的就是解除为分布式应用实现协调服务的痛点。

设计目标

ZooKeeper is simple. ZooKeeper 允许分布式的进程通过共享命名空间层次来相互协调，共享命名空间层次有点类似于标准的文件系统。命名空间由数据寄存器组成，ZooKeeper 中的说法是 znodes，类似于文件和目录。与典型的文件系统不同，其被设计用于存储，ZooKeeper 数据存放在内存中。也就是说ZooKeeper 可以实现高吞吐量和低延迟数。
ZooKeeper 完美的实现了高性能、高可用、严格有序的访问。性能方面，ZooKeeper 可以用在大规模、分布式的系统中。可靠性方面，解决了单点障碍。严格有序意味着可以从客户端实现复杂的同步函数。
ZooKeeper is replicated. 类似于分布式进程协调，ZooKeeper 自身可被复制副本到一组主机上作为一个整体。

ZooKeeper Service

ZooKeeper 服务的服务端相互知道彼此的存在。他们维护了一个内存镜像的状态，连同事务日志和快照集一起持久化存储。只要大多数服务器可用，那么ZooKeeper 服务将是可用的。

客户端连接一个单独的 ZooKeeper 服务端。客户端维护了一个TCP 的连接，通过它来发送请求、获取响应、获取watch事件以及发送心跳。如果与服务端的连接断了，客户端将会连到其他的服务端。

ZooKeeper is ordered. ZooKeeper 为每个更新标记了序号，它反应了ZooKeeper 事务的顺序。并发操作可以用这个序号来实现更高层次的抽象，例如同步服务。

ZooKeeper is fast. 它在以读为主的场景下非常快。ZooKeeper 应用运行在数千台机器上，在读写比为 10:1 的时候表现最佳。

数据模型与分层命名空间

ZooKeeper 提供的命名空间非常像标准的文件系统。名字是路径元素通过斜杠（/）分割的序列。 ZooKeeper 命名空间中的每个节点都是一个唯一的路径。

ZooKeeper 的层级命名空间

节点以及临时节点

与标准的文件系统不同，ZooKeeper 命名空间中的每个节点都存有与子节点相关的数据。它就像一个文件系统允许文件变成一个目录。(ZooKeeper 为存储协调数据而设计：状态信息、配置信息、路径信息等，因此每个节点存储的数据通常都很小，量级在B到KB之间。）我们用术语znode 来指ZooKeeper 数据节点。

Znodes 的数据结构中包括：数据变更的版本号、ACL 变更以及时间戳，以便缓存验证和协调更新。每次znode数据改变，版本号递增。例如，每当客户端收到数据，它将同时收到数据的版本。

命名空间中znode存储的数据是被原子性读写的。读操作可以获得Znode相关的全部数据，写操作将覆盖全部数据。每个及诶单有一个权限控制列表（ Access Control List ，ACL）来限制什么人可以干什么事。

ZooKeeper 也有临时节点的概念. 这些节点存在时间与会话一致，会话创建时znode生效。当会话结束时Znode被删除。临时节点对你实现功能非常有用，请参考[tbd]。

Conditional updates and watches

ZooKeeper 支持watches 的概念. 客户端可以在Znodes上设一个watch 。znode 改变时会触发或删除watch。当watch 被触发时，客户端会收到一个说“znode已被改变”的包。并且，如果客户端和一个Zookeeper服务器之间的连接中断时，客户端会收到一个本地通知。对于如何使用，请参考[tbd]。

保障

ZooKeeper 非常简单、迅速，这源自于它的设计目标。因此它为构建更复杂的服务提供了基础。例如为同步服务提供了一套保障：

Sequential Consistency（顺序一致性） - 按照客户端的发送顺序进行更新。
Atomicity（原子性）- 更新或成功或失败。不会有中间态的部分结果。
Single System Image（单一系统镜像） - 无论客户端或服务器，连接到服务端后都能看到同样的视图。
Reliability（可靠性） - 一旦应用一个更新，它将留存到客户端覆盖本次更新为止。
Timeliness（时效性） - 在一段时间内保证系统的客户端视图是最新的。

更多信息以及他们怎么使用，请看[tbd]。

Simple API

ZooKeeper 其中一个设计目标是提供一个非常简单的编程接口。最终，它只支持这些操作：
_ create _ ：在树的某个位置创建一个节点
_ delete _ ：删除一个节点
_ exists _ ：测试某个位置的节点是否存在
_ get data _ ：从节点中获取数据
_ set data _ ：将数据写入节点中
_ get children _ ：获取子节点的列表
_ sync _ ：等待数据同步

对于更深入的探讨，以及他们怎样用于高级的操作，请参阅[tbd]。

实现

ZooKeeper 组件展示了ZooKeeper 服务的高级组件。除请求处理器以外，构成ZooKeeper 服务的每个服务端的副本集都拷贝自它的每个组件。

ZooKeeper 组件

副本数据库是一个内存数据库，包含了整个数据树。更新日志序列化后记录在磁盘上，用来恢复数据。

每个Zookeeper服务器服务的客户端。客户端准确的连接到一个服务端后提交请求。读请求从每个服务器数据库的本地副本中响应。服务状态变更请求、写请求按照约定的协议执行。

协议的一部分，客户端的全部写请求被转到叫领导者（leader）的一个独立的服务端。其余的Zookeeper服务端，称为从服务（followers） ,从领导者（leader）那边接收消息并确认消息已收到。消息层负责在领导者发生故障时更换领导者并同步数据到从服务。

ZooKeeper 采用了一个自定义的原子消息协议。由于消息层是原子的，Zookeeper 可以保证本地副本没有偏差。当领导者收到一个写请求时，它会计算出系统何时做了写操作，并在事务中更新最新状态。

使用

ZooKeeper 的程序接口刻意简单化。With it, however, you can implement higher order operations, 通过它，你可以实现高层次的操作，例如同步服务，组成员，权限等。一些分布式应用用它： [tbd: 白皮书和视频演示中新增用途] 更多信息请看：[tbd]

性能

ZooKeeper 为高性能而设计。但它到底怎样呢？ZooKeeper 开发团队在Yahoo! 研究表明它非常优秀。（参见ZooKeeper 不同读写比例下的吞吐量）它在读大于写时，性能表现更佳，因为写操作会涉及所有服务端的状态同步。（读大于写是协调服务中典型的案例）

ZooKeeper 不同读写比例下的吞吐量

图 ZooKeeper 不同读写比例下的吞吐量是一个ZooKeeper 3.2版本运行在双核 2Ghz Xeon + 2 SATA 15K RPM磁盘的服务器上的吞吐量曲线。一个磁盘专门用于存储Zookeeper日志。快照被写在系统磁盘上。共1000次读/写请。 "Servers" 指的是一些Zookeeper 集群，这些 "Servers" 构成了Zookeeper服务。另外大约用30台机器来模拟客户端。ZooKeeper 集群的领导者（Leader）被配置为不接受客户端的连接。

在 3.2 版中读/写性能比 3.1之前的版本提升2倍以上。

基准也表明它也是可靠的。出错时的可靠性显示了怎样部署一个应对各种故障的响应服务。图中标记的事件如下：

从服务（follower）发生故障并恢复
其他从服务（follower）发生故障并恢复
领导者（leader）发生故障；
两个从服务（follower）发生故障并恢复
其他领导者（leader）发生故障

可靠性

我们运行一个由7台机器组成的Zookeeper服务，来展示系统故障时的表现。我们运行了与之前相同饱和度的服务，但这次我们将写操作比例保持在30%，30%是我们预期工作负载的保守比例。

出错时的可靠性

这幅图可以观察出一些问题。首先，如果从服务（followers）失败并快速恢复，经管有失败但Zookeeper 任然可以提供高吞吐量的服务。但更重要的是，领导者选举算法（leader election algorithm）可以使系统快速恢复，足以防止吞吐量大幅下降。我们的观察中，ZooKeeper 以低于200ms 的速度选出了领导者（leader）。第三，从服务（followers ）恢复后，ZooKeeper 由于从服务（followers）恢复，它们开始处理请求，又能提高吞吐量。

ZooKeeper 项目

ZooKeeper 已被成功的用于许多行业应用中。在 Yahoo! 作为 Yahoo! Message Broker 的协调和故障恢复服务。Yahoo! Message Broker是一个高可扩展性的订阅发布系统。ZooKeeper 管理着成千上万个Topics 的副本和数据交付。它为Yahoo! 爬虫提供Fetching 服务和故障恢复。一些 Yahoo! 的广告系统也在用 ZooKeeper 来实现的服务可靠性。
鼓励所有用户和开发者加入社区并贡献专业知识。更多信息请看 Apache 基金会 Zookeeper项目。

原文地址：https://zookeeper.apache.org/doc/trunk/zookeeperOver.htm