我们每天要进行大量的线上变更操作。怎么保证这些操作安全,不会导致故障,是我每天都在思考的问题。 这篇文章从工作 […]
Continue reading…
Posts tagged with 'SRE'
Alert 自动诊断系统的设计
在运维系统中,我认为 Alert 光发出来是不够的。每一个 Alert 发出来都需要处理,都要被解决。 我们现 […]
Continue reading…
部署和维护开源软件的经验
现在公司多多少少都会用一些开源的软件,我在工作中也部署和维护了很多开源软件。这篇文章就讲讲维护这些软件的一些经 […]
Continue reading…
用 PromQL 计算 SLI 和 SLO
用 PromQL 查询出来过去一个月中用掉的 Error budget,然后展示当前的 SLI。效果如下图所示 […]
Continue reading…
用 Wireshark 分析 TCP 吞吐瓶颈
Debug 网络质量的时候,我们一般会关注两个因素:延迟和吞吐量(带宽)。延迟比较好验证,Ping 一下或者 […]
Continue reading…