本文是一个“Hello World”风格的教程,演示了如何在简单的示例设置中安装,配置和使用Prometheus。您将在本地下载并运行Prometheus,然后将其自己看做一个应用程序来进行监控,同时使用Node Exporter采集主机数据。最后通过仪表盘来使用收集的时间序列数据。
安装
为您的平台下载最新版本的Prometheus,然后解压缩并运行它:
$ wget https://github.com/prometheus/prometheus/releases/download/v2.9.1/prometheus-2.9.1.linux-amd64.tar.gz
$ tar xvfz prometheus-2.9.1.linux-amd64.tar.gz
采集应用数据
Prometheus通过在目标应用上的HTTP端点/metrics来收集受监控目标的指标。由于Prometheus也以同样的方式公开数据,因此也可以抓取它的指标和监控自身的健康状况。
虽然Prometheus服务器收集有关自身的数据在实践中并不是很有用,但它是一个很好的示例。
配置
可以看到Prometheus的配置文件prometheus.yml:
global:
scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
# scrape_timeout is set to the global default (10s).
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets:
# - alertmanager:9093
# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
# - "first_rules.yml"
# - "second_rules.yml"
# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
这里设置了Prometheus采集本地9090端口服务。
启动
./prometheus --config.file=prometheus.yml
正常的情况下,你可以看到以下输出内容:
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:285 msg="no time or size retention was set so using the default time retention" duration=15d
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:321 msg="Starting Prometheus" version="(version=2.9.1, branch=HEAD, revision=ad71f2785fc321092948e33706b04f3150eee44f)"
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:322 build_context="(go=go1.12.4, user=root@09f919068df4, date=20190416-17:50:04)"
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:323 host_details="(Linux 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 localhost.localdomain (none))"
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:324 fd_limits="(soft=1024, hard=4096)"
level=info ts=2019-04-18T03:24:43.863Z caller=main.go:325 vm_limits="(soft=unlimited, hard=unlimited)"
level=info ts=2019-04-18T03:24:43.864Z caller=main.go:640 msg="Starting TSDB ..."
level=info ts=2019-04-18T03:24:43.874Z caller=web.go:416 component=web msg="Start listening for connections" address=0.0.0.0:9090
level=info ts=2019-04-18T03:24:43.876Z caller=main.go:655 msg="TSDB started"
level=info ts=2019-04-18T03:24:43.876Z caller=main.go:724 msg="Loading configuration file" filename=prometheus.yml
level=info ts=2019-04-18T03:24:43.877Z caller=main.go:751 msg="Completed loading of configuration file" filename=prometheus.yml
level=info ts=2019-04-18T03:24:43.877Z caller=main.go:609 msg="Server is ready to receive web requests."
这时Prometheus应该已经启动。您还应该通过localhost:9090浏览到自己的状态页面。过几秒钟后就会从自己的HTTP指标端点收集到有关数据。
您还可以通过浏览其指标端点来验证Prometheus是否正在提供有关自身的指标: localhost:9090/metrics
使用Node Exporter采集主机数据
Exporter的作用是暴露已有的第三方服务的 metrics 给 Prometheus。Exporter将监控数据采集的端点通过HTTP服务的形式暴露给Prometheus Server,Prometheus Server通过访问该Exporter提供的Endpoint端点,即可获取到需要采集的监控数据。
从上面的描述中可以看出Exporter可以是一个相对开放的概念,其可以是一个独立运行的程序独立于监控目标以外,也可以是直接内置在监控目标中。只要能够向Prometheus提供标准格式的监控样本数据即可。
这里为了能够采集到主机的运行指标如CPU, 内存,磁盘等信息。我们可以使用Node Exporter。
安装
$ wget https://github.com/prometheus/node_exporter/releases/download/v0.17.0/node_exporter-0.17.0.linux-amd64.tar.gz
$ tar xvfz node_exporter-0.17.0.linux-amd64.tar.gz
运行
$ cd node_exporter-0.17.0.linux-amd64
$ ./node_exporter
看到如下输出:
INFO[0000] Starting node_exporter (version=0.17.0, branch=HEAD, revision=f6f6194a436b9a63d0439abc585c76b19a206b21) source="node_exporter.go:82"
INFO[0000] Build context (go=go1.11.2, user=root@322511e06ced, date=20181130-15:51:33) source="node_exporter.go:83"
INFO[0000] Enabled collectors: source="node_exporter.go:90"
INFO[0000] - arp source="node_exporter.go:97"
INFO[0000] - bcache source="node_exporter.go:97"
INFO[0000] - bonding source="node_exporter.go:97"
INFO[0000] - conntrack source="node_exporter.go:97"
INFO[0000] - cpu source="node_exporter.go:97"
INFO[0000] - diskstats source="node_exporter.go:97"
INFO[0000] - edac source="node_exporter.go:97"
INFO[0000] - entropy source="node_exporter.go:97"
INFO[0000] - filefd source="node_exporter.go:97"
INFO[0000] - filesystem source="node_exporter.go:97"
INFO[0000] - hwmon source="node_exporter.go:97"
INFO[0000] - infiniband source="node_exporter.go:97"
INFO[0000] - ipvs source="node_exporter.go:97"
INFO[0000] - loadavg source="node_exporter.go:97"
INFO[0000] - mdadm source="node_exporter.go:97"
INFO[0000] - meminfo source="node_exporter.go:97"
INFO[0000] - netclass source="node_exporter.go:97"
INFO[0000] - netdev source="node_exporter.go:97"
INFO[0000] - netstat source="node_exporter.go:97"
INFO[0000] - nfs source="node_exporter.go:97"
INFO[0000] - nfsd source="node_exporter.go:97"
INFO[0000] - sockstat source="node_exporter.go:97"
INFO[0000] - stat source="node_exporter.go:97"
INFO[0000] - textfile source="node_exporter.go:97"
INFO[0000] - time source="node_exporter.go:97"
INFO[0000] - timex source="node_exporter.go:97"
INFO[0000] - uname source="node_exporter.go:97"
INFO[0000] - vmstat source="node_exporter.go:97"
INFO[0000] - xfs source="node_exporter.go:97"
INFO[0000] - zfs source="node_exporter.go:97"
INFO[0000] Listening on :9100 source="node_exporter.go:111"
代表已启动成功,可通过9100端口访问。
从Node Exporter收集监控数据
为了能够让Prometheus Server能够从当前node exporter获取到监控数据,这里需要修改Prometheus配置文件。编辑prometheus.yml并在scrape_configs节点下添加以下内容:
scrape_configs:
# The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
- job_name: 'node'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9100']
重新启动Prometheus Server
访问http://localhost:9090,进入到Prometheus Server。输入“up”并且点击执行按钮以后,可以看到如下结果:
其中“1”表示正常,反之“0”则为异常。
集成Grafana
第三方的可视化工具Grafana是一个开源的可视化平台,并且提供了对Prometheus的完整支持。
下载安装
官网下载地址:Grafana
根据自己的系统版本和配置,下载对应的包。3000为Grafana的默认侦听端口,启动后打开浏览器,输入IP+端口进行访问。
系统默认用户名和密码为admin/admin,第一次登陆系统会要求修改密码。
添加数据源
首先是添加数据源,这里选择Prometheus作为默认的数据源,如下图所示,指定数据源类型为Prometheus并且设置Prometheus的访问地址即可,在配置正确的情况下点击“Save & Test”按钮,会提示连接成功的信息:
创建DashBoard
创建好数据源之后,就需要创建DashBoard(仪表盘),可以自定义,也可以导入你需要的仪表盘,官方提供了很多的可选仪表盘。
这里我们选择官方提供的Prometheus 2.0 Stats。
展示仪表盘
Grafana中所有的Dashboard通过JSON进行共享,下载并且导入这些JSON文件,就可以直接使用这些已经定义好的Dashboard:
可以在Explore的“Metrics”选项下通过PromQL查询需要可视化的数据,比如输入指标node_memory_MemFree_bytes查看系统可用内存: