在昨天,我们讨论了连接池,有朋友留言表示还不是很懂连接池的优势,知识不是死记硬背的,我们今天从计算机网络、已经分布式系统的可用性方面,来跟大家解释解释,连接池的优点。
相信大家对TCP的三次握手已经非常地熟悉,很多人之前都觉得这些都是背诵来面试的,今天我们就来讲讲他们的应用。建立TCP连接需要三次握手之后才开始发送数据,这样才能保证数据的可靠传输。 假设后端服务与数据库单程访问需要10毫秒,那么我们对数据库发起一次数据库查询请求,就需要30毫秒用来先建立连接。每个请求的延迟就要多30毫秒,系统的吞吐必然会大大降低。实际上TCP的优化可以在发起方第二次ack的时候把请求包也带过去,所以只会多两程往返路径,多了20毫秒。
如果你觉得只多这20毫秒么?那就太天真了,TCP能够一次就把所有的数据都发送完么?网络环境是非常复杂的,中间有着多个结点,发送方并不知道整条链路的带宽是多少,如果一下子发送太多,就会造成丢包,而TCP一旦丢包就需要重试,最后发送速度反而更慢。我们都知道TCP是有发送窗口的,并且这个发送窗口是可以改变的,为了保证网络的高效可靠传输,TCP采用慢启动的算法。TCP会先尝试发4个窗口数据,如果发送成功再发送8个窗口,成功了在16个窗口,如果你用过下载器下载软件,就会发现,一开始下载速度比较慢,然后越来越快,最后达到家里网络带宽的下载速度。
假如我们初试窗口大小为4kb(事实上linux上面默认的不止这么多,大概有16kb,这里为了计算方便,我们使用4kb),如果我们一次数据库查询要查询100Kb的数据,要花多长点额时间呢?
一次查询竟然要花120毫秒,如果我们本来就与数据库建立长连接,除去三次握手跟慢启动的时间,同样查询100kb大小的查询,只要40毫秒。
同理,我们的很多Http,Rpc协议都是支持长连接的,也是同样的道理,长连接相对与短链接,免去了TCP握手跟慢启动的时间,如果通信的双方的距离越远,延迟越高,传输的数据包越大,那么长连接的优势就越明显。当然,维护长连接对服务器来说也是一种开销,如何更高效利用长连接也是一个值得研究的事情。如果你有兴趣,可以关注我,后面我们再一起讨论。
紧接着,我们再来从分布式系统的稳定性跟可用性讨论这个问题,假如我们在做一个电商系统,A业务是属于下单的主流程,B业务是商家后台,很明显,他们都需要读取订单的数据。设想,如果存在某一个时刻,有一些商家都拼命读取数据,特别是大商家,就会占用特别多的数据库资源。所以我们不难想到,针对这种情况,我们要进行限流,连接池也是一种限流的方案。通过连接池,我们给每个业务配置一定数量的长连接。如果不存在可用的长连接,业务就会等待,避免流量到数据库,增加数据库的压力。
上述例子,我们只允许5个商家系统的后台同时使用订单数据库,而允许30个用户长连接可以保证用户下单的并发最少有30个,从而减少系统的压力。
总结:
不要死背概念,只要我们从原理出发,就能很清楚了了解每一个系统设计的妙处。如果你感兴趣,可以关注我,后面我们会剖析更多精彩的设计。