我从 2018 年就在做和监控告警相关的工作,到现在已经有差不多5年了。之前几年集中在报警的自动化处理上,后来发现这样做效果太少,治标不治本,后面在 Shopee 主要关注提高 Alert 的设置准确性和处理流程上面,我认为这样可以从根本上解决问题。
今年在 PromCon 上做了一个演讲,介绍了从 Alert 的配置,到触发,最后 Review 的一些经验。
演讲是英文的(虽然我的口语也不太好),视频已经上传到了 Youtube:https://www.youtube.com/watch?v=OWZU3S44ss0
Slides 地址:https://github.com/laixintao/alerting-with-confidence