前言
目前网络上介绍CAP理论及BASE理论的文章已经很多了,但很多文章内容都在重复,而且并不严谨。比如分布式系统一定要具备分区容忍性P,真的是这样吗,我们就不能够选择CA吗?
本文将先介绍CAP理论及BASE理论的基本概念,然后总结下本文并谈谈自己对分布式系统理论的思考。希望阅读本文能够对大家有所帮助。
CAP理论
分布式系统的CAP理论是由Eric Brewer于1999年首先提出的,CAP是对Consistency(一致性)、Availability(可用性)、Partition tolerance(分区容忍性)的一种简称,如下图所示:
具体含义如下:
一致性(C):指强一致性,在分布式系统中的同一数据有多个副本的情形下,对于数据的更新操作体现出的效果与只有单份数据是一样的。要求数据被一致地更新,所有数据变动都是同步的。
可用性(A):客户端在任何时刻对大规模数据系统的读/写操作都应该保证在限定延时内完成。即系统在面对各种异常时,依然可以响应客户端的读/写请求并提供正常服务。
分区容忍性(P):以实际效果而言,分区相当于对通信的时限要求。系统如果不能在时限内达成数据一致性,就意味着发生了分区的情况(分布式系统一定会发生分区的情况的,因为存在网络中断、消息丢失等网络问题)。分区容忍性即指在网络中断、消息丢失的情况下,系统照样能够工作。
Eric Brewer在提出CAP概念的同时,也证明了CAP定理:任何分布式系统在可用性、一致性、分区容忍性方面,不可能同时被满足,最多只能得其二。该定理也被称作布鲁尔定理(Brewer's theorem)。任何分布式系统的设计只是在C、A、P三者中的不同取舍而已,要么AP,要么CP,要么AC,但是不存在CAP同时存在的情况,这就是CAP定理的精髓所在。在网络环境下,运行环境出现网络分区/分割一般是不可避免的,所以分布式系统一般必须具备分区容忍性P。因此,在设计分布式系统时,架构师一般在C和A之间进行权衡和选择,即要么CP,要么AP。当然,如果系统要求为强事务型,比如面向网上支付等金融交易,我们也可以选择CA,支付宝的OceanBase就是如此。
为了进一步理解CAP定理,我们来看一个简单的例子:假定在分布式系统中有两个节点m1和m2,分别存储数据a的副本,作用在m1上的更新操作将数据a从v1更新成v2。该系统具备分区容忍性P,假定现在系统发生了故障,m1和m2之间的网络断开了,考虑以下两种情况:-
情况一:若要保证一致性C,则要求数据a的所有副本必须一致,即保证m2上的数据a也被更新为v2而与m1同步。而此时由于发生网络故障,m1与m2无法进行通信,进而无法将数据a同步到一致状态。这样,对于m2上数据a的读请求必然要被拒绝,因此无法保证系统的可用性A。此种情况下,我们选择了CAP中的CP而放弃了A,如下图所示:
-
情况二:若要保证可用性A,那么对于m2上数据a的读请求必须在限定时间内返回。在网络故障尚未解决之前,m1和m2无法进行通信,此时m2返回的a指为v1,而并非是当前数据a的最新状态v2,即出现了数据的不一致状态,因此无法保证系统的一致性C。此种情况下,我们选择了CAP中的AP而放弃了C,如下图所示:
但是,如果我们的系统是强事务型,即实现了CA,那又是什么情况呢?
-
情况三:如果系统实现的是CA,答案很简单,因为系统放弃了P,所以当网络发生故障时,将数据a从v1更新成v2的操作根本就不会成功(这里回顾一下分区容忍性的概念,当网络发生分区时,系统依然可用,我们这里放弃了P,所以更新操作将不会成功),所以在系统实现CA的情况下,数据a将还是v1,系统依然是一致地、可用的,因为你读操作还能给你正确返回,如下图所示:
综上可知,对于一个分布式系统来说,C、A、P三者不可兼得。
BASE理论
对于很多互联网应用来说,对一致性的要求可以降低,而可用性的要求则更为重要,从而产生了弱一致性的BASE理论。BASE理论是基于CAP理论逐步演化而来的,其核心思想是即使不能达到强一致性,也可以根据应用特点采用适当的方法来达到最终一致性的效果。BASE是Basically Available(基本可用)、Soft state(软状态/柔性状态)、Eventually consistent(最终一致性)三个词组的简写,是对CAP中C和A的延伸。
BASE理论的含义如下:
- 基本可用:在绝大多数时间内系统处于可用状态,允许偶尔的失败。
- 软状态/柔性状态:数据状态不要求在任意时刻都完全保持同步,即状态可以有一段时间不同步。
- 最终一致性:与强一致性相比,最终一致性是一种弱一致性。尽管软状态不要求任意时刻数据保持一致同步,但是最终一致性要求在给定时间窗口内数据会达到一致状态。
以上就是BASE理论的基本概念,可见BASE理论强调的是系统的高可用,允许系统在一定时间内存在数据不一致,但在给定的时间窗口内,系统最终一定是要达到一致状态的。
总结及思考
系统从集中式发展到分布式,一部分原因在于单机无法满足日益庞大的数据的存储与处理,而引入分布式后,我们又不得不面对分布式系统中的网络问题。
分布式系统CAP理论及BASE理论可以说是分布式系统设计的基石,这些基本理论对于深入理解分布式环境下技术方案设计选型具有重要的指导作用。而其中BASE理论也可以说是对CAP理论的一种扩展,通过系统的软状态,最终一致性的特点,婉转的实现了CAP三者的结合。
最后,对于我们大多数人来讲可能并没有机会参与到分布式系统的设计与实现当中,但了解分布式系统理论也能够帮助我们更好的理解分布式系统的设计理念,能够帮助我们更好的选择与使用分布式系统的产品。
如果文章对你有帮助,欢迎点赞及打赏,如有不足,也欢迎指正。
近期读了Eric Brewer教授关于CAP理论在当前技术体系下的新思考,对分布式系统下的相关理论又有了更深的思考,文章的核心思想应该是将CAP 实践应针对具体的应用,在合理范围内最大化数据一致性和可用性的‘合力’,通过规划分区期间的操作和分区之后的恢复来使CAP三者之间达到一定的平衡。
最后附上文章链接:https://www.infoq.cn/article/cap-twelve-years-later-how-the-rules-have-changed。
写在最后
聊技术,不止于技术。
欢迎大家关注我的个人公众号:WU双,在这里我会与大家分享技术文章、管理知识以及个人的一些思想感悟。