经常有同事来问我为什么从 Grafana 面板上看不到数据,其实排查思路是基本固定的,按照查询的链路一步一步看 […]
Continue reading…
监控系统
程序的 Metrics 优化——Prometheus 文档缺失的一章
Prometheus 设计的 Pull 模式监控非常优雅:程序开发者只需要做一件事情,暴露出来一个 HTTP […]
Continue reading…
Alert 自动诊断系统的设计
在运维系统中,我认为 Alert 光发出来是不够的。每一个 Alert 发出来都需要处理,都要被解决。 我们现 […]
Continue reading…
PromCon 2022 演讲:Alerting with Confidence
我从 2018 年就在做和监控告警相关的工作,到现在已经有差不多5年了。之前几年集中在报警的自动化处理上,后来 […]
Continue reading…
用 PromQL 计算 SLI 和 SLO
用 PromQL 查询出来过去一个月中用掉的 Error budget,然后展示当前的 SLI。效果如下图所示 […]
Continue reading…