服务雪崩:
服务雪崩效应是一种因服务提供者的不可用导致 服务调用者的不可用,并将不可用 逐渐放大 的过程.
任意服务提供者的不可用会导致整个依赖链的崩溃。
形成过程(滚雪球):
1. 服务提供者的不可用。
-
硬件故障
断电,网络波动 ,地震、雷击导致服务器损坏等等。 -
程序bug
各种异常,然后没有异常处理等。 -
缓存击穿
常发生在系统重启后,由于重启清空缓存,导致大部分请求跳过缓存直接请求外部接口或数据库,导致服务负载过大,短时间内无法正常响应。 -
请求过多,资源耗尽
请求过多,单次请求耗时过长导致线程池资源耗尽,也会导致服务不可用。
2. 调用服务堵塞。
同步调用会导致线程堵塞。
3. 调用者重试。
代码逻辑重试。
用户重试。
4. 调用者不可用。
调用者线程资源耗尽。调用者也进入不可用状态。
5. 雪崩效应形成。
服务雪崩的应对策略:
1. 流量控制。
网关限流
使用网关中间件对服务的单位时间调用次数进行控制。
服务接口API限流 Rate Limit
Spring Cloud Zuul微服务网关的API限流
Nginx 限流用户交互限流
采用一定的策略限制用户的请求间隔。
- 采用加载动画,提高用户的忍耐等待时间。
- 提交按钮添加强制等待时间机制。
-
关闭重试
服务调用者关闭重试机制,或者限制重试次数
2. 改进缓存机制。
-
缓存预加载
程序启动时,自动加载热门数据到缓存。
JavaWeb项目启动时加载热数据到缓存 - 同步改为异步刷新
3. 服务自动扩容。
4.服务调用者降级服务。
-
资源隔离
对调用服务的线程池进行隔离 -
依赖分类
根据具体业务,将依赖服务分为: 强依赖和若依赖. 强依赖服务不可用会导致当前业务中止,而弱依赖服务的不可用不会导致当前业务的中止. -
对不可用服务进行快速失败
不可用服务的调用快速失败一般通过 超时机制,熔断器和熔断后的降级方法 来实现.
超时处理机制:当调用服务的响应时间过长,无论是否还能返回正确结果,调用方都认为调用失败,进行失败处理。
Java任务超时处理机制实现
Hystrix
Hystrix 是什么?
一个针对分布式系统的延迟和容错的中间库。
在分布式环境中,许多服务依赖项中的一些不可避免地会失败。
Hystrix 是一个通过添加延迟和故障容错逻辑来帮助你控制这些分布式服务之间交互的中间件。Hystrix通过隔离服务之间的访问点,阻止它们之间的级联故障以及提供后备选项来实现这一点,所有这些都可以提高系统的整体弹性。
In a distributed environment, inevitably some of the many service dependencies will fail.
Hystrix is a library that helps you control the interactions between these distributed services by adding latency tolerance and fault tolerance logic.
Hystrix does this by isolating points of access between the services, stopping cascading failures across them, and providing fallback options, all of which improve your system’s overall resiliency.
Hystrix 有什么作用?
- 避免级联故障
- 回退和降级
- 快速失败和恢复
- 线程池和信号量隔离的断路器
- 实时监控,警报和操作控制。