监控架构 - 专业打小报告好多年
Contents
[NOTE] Updated January 20, 2020. This article may have outdated content or subject matter.
骑士
- AlertManager 配置以及工具使用说明
- AlertManager 配置文件模板
交叉
在 Prometheus 配置文件更新以下代码块(prometheus 2.0 +),修改完成后重启后生效
- Prometheus 配置文件地址
{{deploy_dir}}/conf/prometheus.yml
1 2 3 4 5
alerting: alertmanagers: - static_configs: - targets: - '172.16.10.65:39093' # AlertManager 地址与端口
- Prometheus 配置文件地址
模范
- 告警发送
- Slack:API 通过 Slack-API 获取
- 需要 Slack 账号
- E-mail:通过邮件方式发送告警,选用 db-alert-email 接收器
- 需要 SMTP 服务器信息
- WebHook:通过 SMS 或者 syslog 方式发送告警选用 webhook-pulgin 接收器
- 需要提供 syslog binary 工具接收
- 发送到 syslog binary 中的告警等级为 port ,由 route 中的
level: port
参数控制。
- Slack:API 通过 Slack-API 获取
- 告警场景
- 注意版本问题 / 发送次数
- 同一个集群环境,向多方同时发送告警
- 多个 slack api + 多个邮箱地址 + SMS / 语音告警 = 告警平台 (伪)
- 小问题
- 邮件模板不美观
- 邮件模板内连接不准确
- 邮件单独告警,而非一封邮件
- alertmanager 组件如果挂掉,那么就没办法发告警了,前面所有链路中断
- 邮件模板不美观
|
|
管理
- 通过
http://IP:9093/
打开网页,可通过网页管理告警- 通过页面可以 silence 一条正在持续发送的告警
维护
- 告警测试
curl -H "Content-Type: application/json" -d ‘[{"labels":{"alertname":"TestAlert1"}}]’ http://180.76.154.185:9093/api/v1/alerts
- 启动 停止管理
- 自动化部署的 AlertManager,启动停止脚本位于
{{deploy_dir}}/scripts
目录中 - 手动部署的,参考 通过 systemd 守护 syncer 进程启动 文档
- 自动化部署的 AlertManager,启动停止脚本位于
友人
组件部署
- 使用 2018 年 3 月 22 日以后的 TiDB-Ansible 可以自动部署 AlertManager 组件
- 也可按照参考 通过 systemd 守护 syncer 进程启动 方案手动部署 AlertManager 组件