由于最近线上故障频出,公司决定对现有各个核心系统做故障演练,来加强核心系统的健壮性和可用性。我们演练的场景很简单,模拟单机房挂掉,所有的服务仍然可用。CI 作为各个业务...
由于最近线上故障频出,公司决定对现有各个核心系统做故障演练,来加强核心系统的健壮性和可用性。我们演练的场景很简单,模拟单机房挂掉,所有的服务仍然可用。CI 作为各个业务...
最近被问到如何理解 k8s 弹性伸缩的这样的问题,而我最初的回答很简单也很肤浅,我说:k8s 是 HPA 根据定义的 metric 阈值 (简单的 cpu 值...
@可爱小海豚 文章里用到 consul 的近事实的健康检测替代了 nginx 的健康检测,就没必要再加 check 模版了
我们客服系统中使用tengine+dyups+consul 解决自动扩容缩容的问题ngx_http_dyups_module是什么 ngx_http_dyups_module (dyups means dynamic upstreams)是github上一...
记一次16个小时的 beta 环境 zk 集群故障 最近公司的 beta 环境 zk 集群经历了一次大震荡,16个小时的恢复时间,听起来就感觉不可思议,但是问题真的没那么简单...
我们在做日志收集方案选型的时候,ops 给的方案是日志先落盘,然后再做收集。这样做有一个好处,对应用没有影响,据说其他公司有通过网络收集日志的,后来收集系统出故障导致应用 h...
这两年 IT 行业的技术更新越来越快,其中 DevOps、AIOps 是大家比较熟知的,它们帮助公司解决了传统运维的效率和成本问题,也是当前各个互联网公司的方向。随之...
我在测试把 springboot 的程序部署到 tomcat 容器中发现springboot 的日志文件 catalina.out 没有生成,docker logs 也看不到...
@d6a872b8f4a6 你具体说的是nginx配置的持久化,还是 consul 里的数据持久化? consul 本身就支持持久化的,不需要我们改动。 如果你问的是 nginx 配置持久化,可以看文章下面我写的github , 代码都在里面了。
我们客服系统中使用tengine+dyups+consul 解决自动扩容缩容的问题ngx_http_dyups_module是什么 ngx_http_dyups_module (dyups means dynamic upstreams)是github上一...