新华三:2025年智能无损网络技术白皮书

2025-06-06ASPCMS社区 - fjmyhfvclm

《2025年智能无损网络技术白皮书》由新华三技术有限公司发布,聚焦智能无损网络技术体系,旨在解决数据中心在AI、分布式存储等场景下的网络性能瓶颈问题,通过流量控制、拥塞控制及存储网络融合技术,构建“无丢包、低时延、高吞吐”的网络环境。

### 一、技术背景与架构

随着RDMA技术在分布式存储、AI等场景的普及,基于UDP的RoCEv2协议因缺乏丢包保护机制,易受Incast流量拥塞影响,而数据中心硬件(如GPU算力、NVMe存储)的快速发展也凸显了网络时延的短板。智能无损网络通过物理层硬件(AI芯片、交换芯片)、数据链路层流量控制(PFC)、网络层拥塞控制(ECN、AI ECN等)及应用层存储网络融合技术(iNOF)的分层架构,实现端到端的性能优化。

### 二、核心技术解析

1. **流量控制技术(PFC)**

PFC通过优先级队列实现逐跳流量控制,通过发送反压帧(PFC PAUSE)阻止特定优先级流量发送,避免缓冲区溢出。针对PFC可能引发的死锁问题,白皮书提出死锁检测机制(如定时器监控队列状态)和预防策略(识别高风险业务流并调整队列优先级),确保网络稳定。

2. **拥塞控制技术**

- **ECN(显式拥塞通知)**:通过IP报文头标记拥塞状态(CE位),配合WRED策略提前感知拥塞,避免丢包和重传,减少时延。

- **AI ECN**:利用AI算法动态调整ECN门限,根据流量特征(如大小流占比)智能平衡时延和吞吐,避免PFC过度触发。

- **IPCC(智能主动拥塞控制)**:由网络设备主动发送拥塞通知报文,精准控制发送端降速,相比传统ECN响应更迅速,适用于RoCEv2场景。

3. **智能无损存储网络技术(iNOF)**

iNOF实现以太网与存储网络融合,支持主机自动发现、故障快速感知及跨交换机状态同步。通过直连组网(适用于小规模)和跨交换机组网(基于BGP反射器技术,适用于大规模),提升存储网络的可扩展性和可靠性。其技术优势包括即插即用、故障秒级感知,并复用BGP的安全机制和路由策略,简化大规模部署复杂度。

### 三、应用价值与展望

智能无损网络技术通过多维度协同优化,解决了RDMA在以太网上的性能瓶颈,满足了高性能计算、分布式存储等场景对低时延和高可靠性的需求。未来,随着AI与网络技术的深度融合,动态智能的拥塞控制和存储网络一体化方案将进一步推动数据中心效率提升,为企业数字化转型提供底层网络支撑。

aspcms.cn

全部评论