【数媒在线课堂】Dubbo 分析之心跳设计

2025-02-25ASPCMS社区 - fjmyhfvclm

前言

谈到 RPC 肯定绕不开 TCP 通信,而主流的 RPC 框架都依赖于 Netty 等通信框架,这时候我们还要考虑是使用长连接还是短连接:

  • 短连接:每次通信结束后关闭连接,下次通信需要重新创建连接;优点就是无需管理连接,无需保活连接;
  • 长连接:每次通信结束不关闭连接,连接可以复用,保证了性能;缺点就是连接需要统一管理,并且需要保活;

主流的 RPC 框架都会追求性能选择使用长连接,所以如何保活连接就是一个重要的话题,也是本文的主题,下面会重点介绍一些保活策略;

为什么需要保活

上面介绍的长连接、短连接并不是 TCP 提供的功能,所以长连接是需要应用端自己来实现的,包括:连接的统一管理,如何保活等;如何保活之前我们了解一下为什么需要保活?主要原因是网络不是 100% 可靠的,我们创建好的连接可能由于网络原因导致连接已经不可用了,如果连接一直有消息往来,那么系统马上可以感知到连接断开;但是我们系统可能长时间没有消息来往,导致系统不能及时感知到连接不可用,也就是不能及时处理重连或者释放连接;常见的保活策略使用心跳机制由应用层来实现,还有网络层提供的 TCP Keepalive 保活探测机制;

TCP Keepalive 机制

TCP Keepalive 是操作系统实现的功能,并不是 TCP 协议的一部分,需要在操作系统下进行相关配置,开启此功能后,如果连接在一段时间内没有数据往来,TCP 将发送 Keepalive 探针来确认连接的可用性,Keepalive 几个内核参数配置:

  • tcp_keepalive_time:连接多长时间没有数据往来发送探针请求,默认为 7200s(2h);
  • tcp_keepalive_probes:探测失败重试的次数默认为 10 次;
  • tcp_keepalive_intvl:重试的间隔时间默认 75s;

以上参数可以修改到 /etc/sysctl.conf 文件中;是否使用 Keepalive 用来保活就够了,其实还不够,Keepalive 只是在网络层就行保活,如果网络本身没有问题,但是系统由于其他原因已经不可用了,这时候 Keepalive 并不能发现;所以往往还需要结合心跳机制来一起使用;

心跳机制

何为心跳机制,简单来讲就是客户端启动一个定时器用来定时发送请求,服务端接到请求进行响应,如果多次没有接受到响应,那么客户端认为连接已经断开,可以断开半打开的连接或者进行重连处理;下面以 Dubbo 为例来看看是如何具体实施的;

全部评论