Jun
27
2019
阿里云负载均衡服务TCP端口健康检查成功,为什么在后端业务日志中出现网络连接异常信息?
问题现象:
负载均衡后端配置TCP服务端口后,后端业务日志中频繁出现类似如下网络连接异常错误信息。经进抓包分析,发现相关请求来自负载均衡服务器,同时负载均衡主动向服务器发送了RST数据包。
问题原因:
该问题和负载均衡的健康检查机制有关。
由于TCP对上层业务状态无感知,同时,为了降低负载均衡健康检查成本和对后端业务的冲击,当前负载均衡针对TCP协议服务端口的健康检查只会做简单的TCP三次握手,而后直接发送RST包断开TCP连接。数据交互流程如下:
负载均衡服务器向后端负载均衡服务端口发送SYN请求包;
后端服务器收到请求后,如果端口状态正常,则按照正常的TCP机制返回相应的SYN+ACK应答包;
负载均衡服务器成功收到后端服务端口应答后,则认为端口监听是正常的,判定健康检查成功;
负载均衡服务器向相应TCP服务端口直接发送RST包主动关闭连接,结束本次健康检查操作,且没有继续发送业务数据。
如上所述,由于健康检查成功后,负载均衡服务器直接发送TCP RST包中断了连接,并没有做进一步的业务数据交互,导致上层业务(比如Java连接池等)认为相应的连接是异常的,所以会出现Connection reset by peer等错误信息。
解决方案:
更换TCP协议为HTTP协议。
在业务层面,对来自SLB服务器IP地址段的相关请求做日志过滤,忽略相关错误信息。
本公司销售:阿里云、腾讯云、百度云、天翼云、金山大米云、金山企业云盘!可签订合同,开具发票。
我有话说: