Rancher的4个监控项

经过长期的生产实践,我们发现Rancher 生产环境中经常会遇到下面这4个问题。 我们整理出了这个四个问题发生的情景以及相关的监控脚本,提供给需要的朋友们。

4个监控项

  1. ipsec 监控
  2. 主机 disconnect 监控.
  3. stack unhealthy 监控
  4. stack upgraded 监控

监控项对应的脚本,以及如何部署

准备工作

  1. 获取 Rancher api:
    1. 打开 Rancher 其中一个环境.
    2. 在顶部菜单中选择 API -> Keys,点击 “高级选项” -> “添加环境API KEY”
    3. 名称统一定为 monitor .
    4. 记录下 Access Key 与 Secret Key
  2. 获取Project ID
    1. 打开 Rancher 其中一个环境.
    2. 在顶部菜单中选择 API -> Keys,点击 “高级选项”
    3. 找到 端点,比如 http://rancher.wmcloud-qa.com/v2-beta/projects/1a5 , Proeject ID 即为 1a5

1. IPSEC 监控

监控原因

实际工作中,偶尔会出现主机之间的IPSEC 通道断开,这会导致两台主机间的容器无法通信, 在生产中一旦发生该故障, 则会出现非常严重的生产事故。

注意事项

  1. 所有Rancher主机都需要部署该监控
  2. 报警策略是,输出值改变即触发 S1 报警

监控脚本

#!/bin/bash
c_id=`docker ps | grep ipsec-router | awk -F' ' '{ print $1 }'`
#echo $c_id

n=`docker exec $c_id swanctl -S | grep IKE_SAs | awk -F' ' '{ print $2 }'`
echo $n

2.主机 disconnect 监控

监控原因

很多原因会触发Rancher主机disconnect, 譬如 CPU 用满, 内存用满, 网络用满, 磁盘用满,系统load过高, CPU上下文切换过高。 一旦发生Rancher 主机 disconnect 就表明系统资源的使用已经出现严重问题, 需要运维人员手工紧急处理.

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-disconnect-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 即触发 S1报警

监控脚本

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=*****
RANCHER_SECRET_KEY=*****
# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/hosts" \
  | jq '.data[] |  select(.state | contains("disconnected"))'  | jq -r .hostname `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo ${list}
   exit 127
fi

3. Stack unhealthy 监控

监控原因

出现Stack unhealthy 的情况很多,比如 应用程序启动失败, 对某个目录权限不足, 依赖的服务没有启动,Rancher主机故障等等。 无论哪一种情况,都表示Stack 处于非正常工作状态,需要运维人员立即进行处理。

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 即触发 S1报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.healthState != "healthy")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo '0'
   exit 0 
else
   echo '1'
   exit 127
fi

4. Stack upgrade 状态监控

监控原因

rancher 有一个bug, 当stack处于 upgraded 状态时,如果主机重启, 处于 upgraded 状态的service 都会处于stop 状态,并且无法自动恢复。 upgraded 状态存在的意义在于方便运维进行回滚,因此在监控时,保留24小时的缓冲时间

注意事项

  1. 每一个Rancher Environment 需要一套 Access Key 与 Secret Key.
  2. 脚本名称 prod-respool-stack-unhealthy-monitor.sh
  3. 脚本内容, 需要修改的地方有 RANCHER_URL, RANCHER_ACCESS_KEY, RANCHER_SECRET_KEY, PROJECT_ID
  4. 报警策略是输出非0 ,并且持续24小时后,即触发 S2报警

监控脚本

#!/bin/bash

RANCHER_URL=rancher.wmcloud.com
RANCHER_ACCESS_KEY=***
RANCHER_SECRET_KEY=***

# get project ID easily from the URL when you're in dashboard
PROJECT_ID=1a163

# get all disconnected hosts (YELLOW)
list=`curl -s -k -u "${RANCHER_ACCESS_KEY}:${RANCHER_SECRET_KEY}" \
  "https://${RANCHER_URL}/v2-beta/projects/${PROJECT_ID}/stacks" \
  | jq '.data[] |  select(.state == "upgraded")'  | jq -r .name `


if [[ "X${list}" == "X" ]];
then 
   echo 0
   exit 0 
else
   echo 1
   exit 127
fi
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352