标签归档:丢包

关于广州移动于广州电信之间的丢包分析

我现在手上有一条广州移动的宽带与广州电信的宽带,两边做了site-to-site VPN,但是发现互访比较慢,ping了以下有丢包的情况,于是顺手建了一个ping探测的监控。

然后……然后就发现问题了。

这是其中一天的ping丢包率,而且经过观察,基本上每天的情况都差不多,只有深夜到凌晨一小段时间是完全没丢包的。

于是我准备调整OSPF配置(对,我上了OSPF!),使流量绕行VPS,看看会不会顺畅一点。但是在修改的过程中,我突发奇想,只修改了移动接入一侧的bird配置中接口的OSPF的cost值,探究一下当两边配置的cost不一样的时候,会有什么效果,我又该如何使用这些特性。

然后,然后就发现了奇怪的情况了。两边监控点出现了结果不一样的ping丢包率,经过仔细探查,发现两边报文的走向是不一样的,结果如下:

监控点1的ping探测丢包率还是之前的样子,但是监控点2的ping探测丢包率与延迟都变了。延迟从稳定在20ms增长到稳定在100ms,丢包率就完全变样了:

偶尔有100%的丢包,但是没有持续的高达30%~50%的丢包。这是个很重要的线索。

对比两边的路由,我们可以很轻松的得出结论:丢包是发生在广州移动向广州电信发送的时候

原因的话大概就几个:
1.移动的网管技术比电信的糟糕,不能充分利用两个AS之间互联线路的带宽。
2.很多电信用户从移动那边下载东西,考虑到有CDN和DNS的负载均衡。这个应该不太可能。
3.很多移动用户跑PCDN,电信用户被调度过去从移动PCDN玩家那里获取资源。这个可能性比较大。