Spring Cloud之hystrix

微服务知识架构:1、服务容错 2、服务监控 3、服务的框架 4、运行时期的支撑 5、服务部署 6、 服务的安全

1、服务容错Hystrix

Why用容错?

如果一个底层服务出现问题,故障会被向上传播给用户。我们需要一种机制,当底层服务不可用时,可以阻断故障的传播。这就是断路器的作用。他是系统服务稳定性的最后一重保障。


本文主要讲解Hystrix的 超时、熔断、隔离、                

 如何实现及原理;

默认是10秒之内调用20次(有一个失败率50%),也就是说10秒中,掉了10次都是失败,5秒就返回FallBack;

可以使用hystrix-dashboard 和 turbine来检测熔断的信息;

注意:断路器是安装在服务消费者上的;


Netflix的开源组件Hystrix的流程:


图中流程的说明:

1. 将远程服务调用逻辑封装进一个HystrixCommand。

2. 对于每次服务调用可以使用同步或异步机制,对应执行execute()或queue()。

3. 判断熔断器(circuit-breaker)是否打开或者半打开状态,如果打开跳到步骤8,进行回退策略,如果关闭进入步骤4。

4.判断线程池/队列/信号量(使用了舱壁隔离模式)是否跑满,如果跑满进入回退步骤8,否则继续后续步骤5。

5.run方法中执行了实际的服务调用。a. 服务调用发生超时时,进入步骤8。

6. 判断run方法中的代码是否执行成功。a. 执行成功返回结果。b. 执行中出现错误则进入步骤8。

7. 所有的运行状态(成功,失败,拒绝,超时)上报给熔断器,用于统计从而影响熔断器状态。

8. 进入getFallback()回退逻辑。a. 没有实现getFallback()回退逻辑的调用将直接抛出异常。b. 回退逻辑调用成功直接返回。c. 回退逻辑调用失败抛出异常。

9. 返回执行成功结果。

注意:熔断是否开启熔断器主要由依赖调用的错误比率决定的,依赖调用的错误比率=请求失败数/请求总数。Hystrix中断路器打开的默认请求错误比率为50%(

1.1超时

本质上:Hystrix的超时检测本质上通过启动单独线程去检测的,线程的启动的时间刚好就是任务超时的时间,本质上就是这么个简单的逻辑。 Hystrix超时后会抛出一个HystrixTimeoutException的异常。

超时检测逻辑

 Hystrix的超时包括注册过程和执行过程两个,注册过程如下:

执行lift(new HystrixObservableTimeoutOperator(_cmd))关联超时检测任务。


在HystrixObservableTimeoutOperator类中,new TimerListener()负责创建检测任务,HystrixTimer.getInstance().addTimerListener(listener)负责关联定时任务。

在HystrixObservableTimeoutOperator类中,addTimerListener通过java的定时任务服务scheduleAtFixedRate在延迟超时时间后执行

 Hystrix的超时执行过程如下:

在超时后执行listener.tick()方法后执行类TimerListener的tick方法

在TimerListener类的tick方法中执行timeoutRunnable.run()后执行HystrixContextRunnable的run方法

在HystrixContextRunnable类run方法中执行child.onError(new HystrixTimeoutException())实现超时。

1.2熔断

Fallback,超时是熔断的一种原因,熔断可能是线程池满、信号拒绝、熔断打开;

1.3 隔离

Hystrix中, 主要通过线程池来实现资源隔离. 通常在使用的时候我们会根据调用的远程服务划分出多个线程池.

1.4 限流

熔断:这个模式是需要系统在设计之初,就要把熔断措施考虑进去。当系统出现问题时,如果短时间内无法修复,系统要自动做出判断,开启熔断开关,拒绝流量访问,避免大流量对后端的过载请求。系统也应该能够动态监测后端程序的修复情况,当程序已恢复稳定时,可以关闭熔断开关,恢复正常服务。

服务降级:将系统的所有功能服务进行一个分级,当系统出现问题,需要紧急限流时,可将不是那么重要的功能进行降级处理,停止服务,这样可以释放出更多的资源供给核心功能的去用。

延迟处理:(削峰)这个模式需要在系统的前端设置一个流量缓冲池,将所有的请求全部缓冲进这个池子,不立即处理。然后后端真正的业务处理程序从这个池子中取出请求依次处理,常见的可以用队列模式来实现。

特权处理:这个模式需要将用户进行分类,通过预设的分类,让系统优先处理需要高保障的用户群体,其它用户群的请求就会延迟处理或者直接不处理。

1.5 降级

1、超时降级,会有异步线程检测

2、故障降级,直接降级

3、api不稳定,错误率太高降级,会有异步线程检测

调用的时候,比如出现线程池满了,拒绝访问,执行fallback方法执行降级逻辑;

在调用错误率达到50%(默认),熔断器会打开一段时间,实现限流;

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。