我在 Shopee 维护一个 Service Mesh 系统,大部分的 RPC 调用要经过这个系统,这个系统每 […]
Continue reading…
SRE
SRE 工作相关
P99 是如何计算的
Latency (延迟)是我们在监控线上的组件运行情况的一个非常重要的指标,它可以告诉我们请求在多少时间内完成 […]
Continue reading…
Gitops 的一些实践经验
之前看过多很多讲 Gitops 概念的文章,今天终于看到一篇讲实践的(原文见这里),我觉得这篇文章很有参考价值 […]
Continue reading…
谈谈预防故障的性价比
说到保障系统的稳定性上,从预防的层面上看,总是有无数的事情可以去做。我觉得人们经常陷入的一个误区是,总是假设系 […]
Continue reading…
连接池中的连接失效的几种处理方案
在分布式系统中,用连接池缓存住连接,来节省连接反复销毁和创建的成本,是一种很常见的做法。但是在高可用的分布式系 […]
Continue reading…