数据中心网络高可用技术：ECMP

在之前的文章中，已经介绍过很多次 ECMP¹ 了，它的原理非常简单：在路由协议中，如果下一跳有多个路径可以选择，并且多个路径的 cost metric 相等，那么路由器就会根据包的 header，计算一个 hash 值，然后根据这个 hash 值对这个 flow 选择一条固定的路径，作为下一跳。

这里的要点是：

路径的 cost metric 要相等。需要注意，Administrative Distance 决定协议的优先级，而 ECMP 只适用于同一协议内部的路径选择，例如 OSPF 使用 Cost 值，BGP 使用 AS-Path 长度；
如我们前面讨论过的 bonding 技术²，ECMP 选路的时候，也是基于 hash 的，这样可以对一个 flow 尽量保证包到达的顺序一致；
ECMP 只影响在某一跳选择下一跳，不影响全局。即，它在每一跳之间做均衡，而不是全局做均衡。

我们拿实际的问题来分析。

如果如图所示部署，一共有三台服务器，部署在两个 rack，这样会造成右边的服务器承担的流量是其他服务器的两倍，流量是不均衡的。因为第一层 ECMP 是发生在两个 Rack 之间，每一个 Rack 的交换机都是拿到 1/2 的流量。然后再进行服务器和 Rack Switch 之间的 ECMP，服务器之间均分 Rack 分得的流量。

所以 ECMP 对部署结构是有要求的，要保证每一个 Rack 的服务器数量大致相当。

ECMP 环境排错要点：理解 flow hash

因为环境中有多条 path，所以在排查问题的时候，要考虑到这一点。

多条 path 之间是通过 flow 的 hash 结果来选路的。ICMP 包主要通过 Src IP, Dst IP, Type, Code, Identifier 来确定一个 flow，如果使用 mtr³，那么一次 mtr 的链路是固定的，因为 mtr 使用固定的 Identifier 来发送 ICMP，在 ECMP 链路中，总会 hash 到一条特定的路线。有的时候，网络存在问题，但是 ping 和 mtr 可能显示没有问题，原因就是恰好 ICMP 被 hash 到了好的线路上去。

如果使用 mtr --tcp --port 80，就可以看到链路中所有的线路。因为 mtr 使用 tcp 的时候，每次使用的 src port 是不固定的，这样就导致每次发出来的 TCP 包都 hash 到不同的线路上。

假设就是想测试和客户端一样的固定线路，可以使用 tcptraceroute⁴，这个工具可以指定 src port，这样 TCP 四元组就固定了。在 ECMP 环境中就会走一样的路线。

另外一点排错经验，如果是 25% 丢包，50% 丢包，通常和某条线路丢包有关。

连接池问题

我们常用的很多 SDK，比如 redis，和 db 的 SDK，都会老道的创建一个连接池来复用连接，减少 tcp 创建的 overhead。还有一个细节，就是这些 SDK 一般会给连接加上最大存活时间，如果超过之后，就会关闭这个连接并删除。

这样做是有好处的，我们自己写的代码中访问 HTTP 服务也会用连接池，但是很少会注意要重建连接。就导致一个连接建立起来，会存在数天。有一些交换机有 Sticky ECMP 的功能，假设多路网络中有一个设备下线，流量就会分散到剩余的设备中。当这个设备回来的时候， Sticky ECMP 会保证这期间创建的连接都依然走一样的路线（不会考虑重新加入的设备）。

这样就会造成连接的带宽使用不均衡。如果连接一直不关闭，就会一直不均衡。在总带宽利用远小于 100% 的时候，就会出现丢包的情况。

所以我们在写代码的时候，也要注意定时重建连接。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

数据中心网络高可用技术：ECMP

ECMP 环境排错要点：理解 flow hash

连接池问题

数据中心网络高可用技术系列

相关文章:

“数据中心网络高可用技术：ECMP”已经有3条评论

Leave a comment 取消回复