面向新型智算中心的以太网弹性通道(FlexLane)技术白皮书(2025年)-中移智库

2025-05-21ASPCMS社区 - fjmyhfvclm

一、背景与需求

随着以ChatGPT、Deepseek为代表的AI大模型崛起,算力需求呈指数级增长,全球加速建设智算中心。智算中心内部及之间海量数据交换对网络链路可靠性要求极高,传统技术因光模块成本与可靠性瓶颈及链路数量激增,难以满足需求。

传统数据中心以南北向流量为主,可靠性要求相对较低;新型智算中心东西向流量特征明显,万卡集群中链路故障概率极高,如Meta LLama 3.1训练中网络互联故障达35次。光模块故障及脏污易引发链路问题,标准以太网接口单通道故障会导致整条链路失效,万卡集群使用标准接口时训练中链路故障次数达2-22次,无法满足零中断需求。

二、FlexLane技术架构

(一)技术目标

实现高可靠、低时延、低开销,保障AI任务零中断,满足智算中心网络要求。

(二)设计原则

兼容性原则:兼容已有标准及通用网络协议栈,可与上层可靠性方案同时部署。

一致性原则:对标准高速以太网接口提供统一技术架构和协议,满足互联互通。

(三)技术架构

包含检测功能、切换机制和交互协议三个关键子系统。检测功能实时监测通道状态;切换机制管理通道开启/关闭,实现故障隔离与恢复;交互协议用于通告故障等操作,还可与上层管控系统交互。

三、FlexLane关键技术

(一)故障隔离

软件升级:通过升级网络设备和光模块软件,实现故障通道隔离,无需更换硬件,如四通道400GE接口故障时可降速为200GE运行。

硬件演进:升级MAC/PHY接口,新增物理层故障检测能力,可检测SF、SD等故障并隔离,还支持主动降速预防故障及动态节能,故障恢复时能无损增加通道。

技术效果:大幅提升链路可靠性,如双通道FlexLane接口故障概率比标准接口低7个数量级,万卡集群使用FlexLane接口时链路故障次数极低,可靠性可达6个9。

(二)故障预防

在通道信号劣化未触发故障时主动上报,实施预防策略,避免故障发生。

(三)动态节能

根据信道质量和流量变化,关闭部分通道降低能耗,如四通道接口空闲时关闭三通道,主芯片能耗可降低约35.5%-37.3%。

四、应用场景

(一)智算中心

内部分服务器与网络设备互联,部署短距高速光模块,支持降一通道策略,在降低带宽损失的同时大幅提升可靠性,如400G光模块单通道故障时降速为300G,故障概率显著降低。

(二)智算中心互联

出口网络设备间部署高速直检或相干光模块互联链路,支持故障通道隔离,对带宽影响小,可靠性大幅提升,如400GE单模链路支持三条通道故障隔离后,故障概率极低。

五、总结与展望

FlexLane技术引入灵活多通道架构,将链路可靠性提升万倍以上,支持现有设备软件升级或新设备硬件集成,成本低、灵活性高,可在智算中心内外互联场景广泛部署。未来,该技术与链路级重传结合可实现故障无损,还将持续演进,引导高速接口产业兼顾性能与可靠性,同时助力节能减排,为1.6TE及更大带宽应用保驾护航。

免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系

全部评论