1. 什么是TSDB?
TSDB(Time Series Database)时序列数据库,我们可以简单的理解为一个优化后用来处理时间序列数据的软件,并且数据中的数组是由时间进行索引的。
时间序列数据库的特点
- 大部分时间都是写入操作。
- 写入操作几乎是顺序添加,大多数时候数据到达后都以时间排序。
- 写操作很少写入很久之前的数据,也很少更新数据。大多数情况在数据被采集到数秒或者数分钟后就会被写入数据库。
- 删除操作一般为区块删除,选定开始的历史时间并指定后续的区块。很少单独删除某个时间或者分开的随机时间的数据。
- 基本数据大,一般超过内存大小。一般选取的只是其一小部分且没有规律,缓存几乎不起任何作用。
- 读操作是十分典型的升序或者降序的顺序读。
- 高并发的读操作十分常见。
2. 什么是Prometheus?
Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是Google BorgMon监控系统的开源版本。
2016年由Google发起Linux基金会旗下的原生云基金会(Cloud Native Computing Foundation), 将Prometheus纳入其下第二大开源项目。Prometheus目前在开源社区相当活跃。
Prometheus和Heapster(Heapster是K8S的一个子项目,用于获取集群的性能数据。)相比功能更完善、更全面。Prometheus性能也足够支撑上万台规模的集群。
3. Prometheus的特点
- 多维度数据模型。
- 灵活的查询语言。
- 不依赖分布式存储,单个服务器节点是自主的。
- 通过基于HTTP的pull方式采集时序数据。
- 可以通过中间网关进行时序列数据推送。
- 通过服务发现或者静态配置来发现目标服务对象。
- 支持多种多样的图表和界面展示,比如Grafana等。
4. Prometheus适用的场景
Prometheus在记录纯数字时间序列方面表现非常好。它既适用于面向服务器等硬件指标的监控,也适用于高动态的面向服务架构的监控。对于现在流行的微服务,Prometheus的多维度数据收集和数据筛选查询语言也是非常的强大。Prometheus是为服务的可靠性而设计的,当服务出现故障时,它可以使你快速定位和诊断问题。它的搭建过程对硬件和服务没有很强的依赖关系。
5. Prometheus不适用的场景
Prometheus它的价值在于可靠性,甚至在很恶劣的环境下,你都可以随时访问它和查看系统服务各种指标的统计信息。 如果你对统计数据需要100%的精确,它并不适用,例如:它不适用于实时计费系统。
6.安装
安装建议操作系统至少CentOS6
6.1 安装Prometheus
Prometheus 可以支持多种安装方式,包括 Docker、Ansible、Chef、Puppet、Saltstack 等。下面介绍最简单的一种方式,直接使用编译好的可执行文件,开箱即用。
Prometheus官方下载地址:https://prometheus.io/download/
- 下载
# wget https://github.com/prometheus/prometheus/releases/download/v2.13.0/prometheus-2.13.0.linux-amd64.tar.gz
- 解压
# tar xf prometheus-2.13.0.linux-amd64.tar.gz
- 运行
# cd prometheus-2.13.0.linux-amd64
# ./prometheus --config.file=prometheus.yml
如果要自定义端口,比如19090,可以参考例子:
# cd prometheus-2.13.0.linux-amd64
# ./prometheus --config.file=prometheus.yml --web.listen-address=:19090
- 验证
访问 http://<服务器IP地址>:9090,验证Prometheus是否已安装成功
- 配置说明
# cat prometheus.yml
# my global config
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
Prometheus 默认的配置文件分为四大块:
- global 块:Prometheus 的全局配置,比如 scrape_interval 表示 Prometheus 多久抓取一次数据,evaluation_interval 表示多久检测一次告警规则;
- alerting 块:关于 Alertmanager 的配置,这个我们后面再看;
- rule_files 块:告警规则,这个我们后面再看;
- scrape_config 块:这里定义了 Prometheus 要抓取的目标,我们可以看到默认已经配置了一个名称为 prometheus 的 job,这是因为 Prometheus 在启动的时候也会通过 HTTP 接口暴露自身的指标数据,这就相当于 Prometheus 自己监控自己,虽然这在真正使用 Prometheus 时没啥用处,但是我们可以通过这个例子来学习如何使用 Prometheus;可以访问 http://localhost:9090/metrics 查看 Prometheus 暴露了哪些指标;
6.2 安装grafana
虽然 Prometheus 提供的 Web UI 也可以很好的查看不同指标的视图,但是这个功能非常简单,只适合用来调试。要实现一个强大的监控系统,还需要一个能定制展示不同指标的面板,能支持不同类型的展现方式(曲线图、饼状图、热点图、TopN 等),这就是仪表盘(Dashboard)功能。
- 添加yum源
/etc/yum.repos.d/grafana.repo
[grafana]
name=grafana
baseurl=https://packages.grafana.com/oss/rpm
repo_gpgcheck=1
enabled=1
gpgcheck=1
gpgkey=https://packages.grafana.com/gpg.key
sslverify=1
sslcacert=/etc/pki/tls/certs/ca-bundle.crt
- 安装
# yum install grafana
- 安装出错解决方案:
CentOS 7.0安装grafana报错信息:
https://packages.grafana.com/oss/rpm/repodata/repomd.xml: [Errno 14] curl#35 - "Peer reports incompatible or unsupported protocol version."
解决方式:
- grafana.repo 先移除
# cd /etc/yum.repos.d/
# mv grafana.repo grafana.repo-bak
- 安装
# yum update curl nss nss-util nspr
- 还原grafana.repo
# cd /etc/yum.repos.d/
# mv grafana.repo-bak grafana.repo
- yum安装grafana
# yum install grafana
- 启动
# service grafana-server start
Starting Grafana Server: ... [ OK ]
- 开启自启动
# /sbin/chkconfig --add grafana-server
- 配置文件路径
/etc/grafana/grafana.ini
- 验证
访问Grafana
通过http://ip:3000访问Grafana Web界面(缺省帐号/密码为admin/admin)
- 模板
可以导入Node Exporter Server Metrics模板,访问https://grafana.com/dashboards/405,从这里下载Node Exporter Server Metrics模板的JSON文件。
6.3 报警
虽然 Prometheus 的 /alerts 页面可以看到所有的告警,但是还差最后一步:触发告警时自动发送通知。这是由 Alertmanager 来完成的,我们首先 下载并安装 Alertmanager,和其他 Prometheus 的组件一样,Alertmanager 也是开箱即用的:
- 下载
# wget https://github.com/prometheus/alertmanager/releases/download/v0.19.0/alertmanager-0.19.0.linux-amd64.tar.gz
- 解压
# tar zxf alertmanager-0.19.0.linux-amd64.tar.gz
- 启动
# cd alertmanager-0.19.0.linux-amd64
# ./alertmanager --config.file=./alertmanager.yml
默认会监听9093和9094端口,需要修改的话,启动增加参数
# ./alertmanager --config.file=./alertmanager.yml --cluster.listen-address="0.0.0.0:19094" --web.listen-address=":19093"
- 验证
访问http://xxx.xxx.xxx.xxx:9093/#/alerts
- 配置说明
参考https://github.com/prometheus/alertmanager
6.4 监控服务
6.4.1 安装node_exporter
为监控服务器CPU、内存、磁盘、I/O等信息,需要安装node_exporter。node_exporter的作用是用于机器系统数据收集。
- 下载
# wget https://github.com/prometheus/node_exporter/releases/download/v0.14.0/node_exporter-0.14.0.linux-amd64.tar.gz
- 解压
# tar zxf node_exporter-0.14.0.linux-amd64.tar.gz
- 启动
# cd node_exporter-0.14.0.linux-amd64
# ./node_exporter
- 验证
访问 http://xx.xx.xx.xx:9100/metrics