使用Prometheus搞定微服务监控

最近对服务进行监控，而当前监控最流行的数据库就是 Prometheus，同时 go-zero 默认接入也是这款数据库。今天就对 go-zero 是如何接入 Prometheus ，以及开发者如何自己定义自己监控指标。

监控接入

go-zero 框架中集成了基于 prometheus 的服务指标监控。但是没有显式打开，需要开发者在 config.yaml 中配置：

Prometheus:
  Host: 127.0.0.1
  Port: 9091
  Path: /metrics

如果开发者是在本地搭建 Prometheus，需要在 Prometheus 的配置文件 prometheus.yaml 中写入需要收集服务监控信息的配置：

- job_name: 'file_ds'
    static_configs:
      - targets: ['your-local-ip:9091']
        labels:
          job: activeuser
          app: activeuser-api
          env: dev
          instance: your-local-ip:service-port

因为本地是用 docker 运行的。将 prometheus.yaml 放置在 docker-prometheus 目录下：

docker run \
    -p 9090:9090 \
    -v dockeryml/docker-prometheus:/etc/prometheus \
    prom/prometheus

打开 localhost:9090 就可以看到：

点击 http://service-ip:9091/metrics 就可以看到该服务的监控信息：

上图我们可以看出有两种 bucket，以及 count/sum 指标。

那 go-zero 是如何集成监控指标？监控的又是什么指标？我们如何定义我们自己的指标？下面就来解释这些问题

以上的基本接入，可以参看我们的另外一篇：https://zeromicro.github.io/go-zero/service-monitor.html

如何集成

上面例子中的请求方式是 HTTP，也就是在请求服务端时，监控指标数据不断被搜集。很容易想到是 中间件 的功能，具体代码：https://github.com/tal-tech/go-zero/blob/master/rest/handler/prometheushandler.go。

var (
    metricServerReqDur = metric.NewHistogramVec(&metric.HistogramVecOpts{
        ...
    // 监控指标
        Labels:    []string{"path"},
    // 直方图分布中，统计的桶
        Buckets:   []float64{5, 10, 25, 50, 100, 250, 500, 1000},
    })

    metricServerReqCodeTotal = metric.NewCounterVec(&metric.CounterVecOpts{
        ...
    // 监控指标：直接在记录指标 incr() 即可
        Labels:    []string{"path", "code"},
    })
)

func PromethousHandler(path string) func(http.Handler) http.Handler {
    return func(next http.Handler) http.Handler {
        return http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
      // 请求进入的时间
            startTime := timex.Now()
            cw := &security.WithCodeResponseWriter{Writer: w}
            defer func() {
        // 请求返回的时间
                metricServerReqDur.Observe(int64(timex.Since(startTime)/time.Millisecond), path)
                metricServerReqCodeTotal.Inc(path, strconv.Itoa(cw.Code))
            }()
            // 中间件放行，执行完后续中间件和业务逻辑。重新回到这，做一个完整请求的指标上报
      // [🧅：洋葱模型]
            next.ServeHTTP(cw, r)
        })
    }
}

其实整个很简单：

HistogramVec 负责请求耗时搜集：
- bucket 存放的就是 option 指定的耗时指标。某个请求耗时多少就会被聚集对应的桶，计数。
- 最终展示的就是一个路由在不同耗时的分布，很直观提供给开发者可以优化的区域。
CounterVec 负责指定 labels 标签搜集：
- Labels: []string{"path", "code"}
- labels 相当一个 tuple。go-zero 是以(path, code)作为整体，记录不同路由不同状态码的返回次数。如果 4xx,5xx过多的时候，是不是应该看看你的服务健康程度？

如何自定义

go-zero 中也提供了 prometheus metric 基本封装，供开发者自己开发自己 prometheus 中间件。

代码：https://github.com/tal-tech/go-zero/tree/master/core/metric

名称	用途	搜集函数
CounterVec	单一的计数。用做：QPS统计	`CounterVec.Inc()` 指标+1
GuageVec	单纯指标记录。适用于磁盘容量，CPU/Mem使用率（可增加可减少）	`GuageVec.Inc()/GuageVec.Add()` 指标+1/指标加N，也可以为负数
HistogramVec	反应数值的分布情况。适用于：请求耗时、响应大小	`HistogramVec.Observe(val, labels)` 记录指标当前对应值，并找到值所在的桶，+1

另外对 HistogramVec.Observe() 做一个基本分析：

我们其实可以看到上图每个 HistogramVec 统计都会有3个序列出现：

_count：数据个数
_sum：全部数据加和
_bucket{le=a1}：处于 [-inf, a1] 的数据个数

所以我们也猜测在统计过程中，分3种数据进行统计：

// 基本上在prometheus的统计都是使用 atomic CAS 方式进行计数的
// 性能要比使用 Mutex 要高
func (h *histogram) observe(v float64, bucket int) {
  n := atomic.AddUint64(&h.countAndHotIdx, 1)
  hotCounts := h.counts[n>>63]

  if bucket < len(h.upperBounds) {
    // val 对应数据桶 +1
      atomic.AddUint64(&hotCounts.buckets[bucket], 1)
  }
  for {
      oldBits := atomic.LoadUint64(&hotCounts.sumBits)
      newBits := math.Float64bits(math.Float64frombits(oldBits) + v)
    // sum指标数值 +v（毕竟是总数sum）
      if atomic.CompareAndSwapUint64(&hotCounts.sumBits, oldBits, newBits) {
          break
      }
  }
  // count 统计 +1
  atomic.AddUint64(&hotCounts.count, 1)
}

所以开发者想定义自己的监控指标：

在使用 goctl 生成API代码指定要生成的 中间件：https://zeromicro.github.io/go-zero/middleware.html
在中间件文件书写自己需要统计的指标逻辑
当然，开发者也可以在业务逻辑中书写统计的指标逻辑。同上。

上述都是针对 HTTP 部分逻辑的解析，RPC 部分的逻辑类似，你可以在 拦截器 部分看到设计。

总结

本文分析了 go-zero 服务监控指标的逻辑，当然对于一些基础设施的监控，prometheus 可以通过引入对应的 exporter 来完成。

项目地址

https://github.com/tal-tech/go-zero

欢迎使用 go-zero 并 star 支持我们！

go-zero 系列文章见『微服务实践』公众号

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 211,423评论 6赞 491
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 90,147评论 2赞 385
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 157,019评论 0赞 348
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 56,443评论 1赞 283
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 65,535评论 6赞 385
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,798评论 1赞 290
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,941评论 3赞 407
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,704评论 0赞 266
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,152评论 1赞 303
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,494评论 2赞 327
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,629评论 1赞 340
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,295评论 4赞 329
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,901评论 3赞 313
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,742评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,978评论 1赞 266
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,333评论 2赞 360
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,499评论 2赞 348

使用Prometheus搞定微服务监控

监控接入

如何集成

如何自定义

总结

项目地址

推荐阅读更多精彩内容