华为云超节点创新算力基础设施 推动千行万业AI应用开发落地

2025-05-17ASPCMS社区 - fjmyhfvclm

5月16日,在华为云AI峰会上,华为云介绍了CloudMartix 384超节点的创新技术优势。华为北京总经理张东亚表示,面向政府、教育、金融、零售、互联网、交通、制造等行业,昇腾AI云服务已经成为超过600家企业数字化转型伙伴。

随着大模型训练和推理对算力需求的爆炸式增长,传统计算架构已难以支撑AI技术的代际跃迁。华为云创新性地推出采用全对等互联架构的CloudMatrix 384超节点。通过新型高速互联总线实现384 张卡互联成为一个超级云服务器,最高提供300Pflops的算力规模,比业界同类产品领先67%。

华为云副总裁黄瑾表示,华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,以系统架构创新重新定义新一代AI基础设施。

“硅基流动”基于CloudMatrix 384超节点昇腾云服务,率先实现了DeepSeek-R1推理服务的持续升级。硅基流动联合创始人&首席产品官胡健表示,硅基流动与华为云联合攻关实现了技术突破。通过采用大规模专家并行方案进行DeepSeek-R1部署,以多专家负载均衡和极致通信优化,实现高吞吐、高性能。

当前AI技术已在多个学科领域实现应用,助力科学发现突破。中国科学院自动化研究所研究员李林静表示,AI赋能科研,成为全球科技发展的制高点,基于CloudMatrix 384超节点的大模型后训练,支撑不同训练范式时稳定和扩展性强,能有效支持AI基座模型持续优化。

稳定的AI算力供给,离不开可靠的数据中心载体。大会期间,华为云数据中心全球DC运维首席专家谢峰分享了华为云CloudMatrix 384超节点机房质量挑战与思路。他表示,通算平稳发展,AI智算快速发展,数据中心在空间、供电、散热和运维等方面面临着更多挑战。其一,AI集群超大规模组网带来的光链路可靠性挑战;其二,AI集群功率快速增长和毫秒级功率波动,带来供电的可靠性挑战;其三,AI集群超高密度散热带来的水质安全和水力平衡挑战。华为云数据中心通过产品化实现快速交付、低成本、低PUE,并开展锂电预测、液冷预测等智能化实践,构筑起绿色低碳、稳定可靠、安全可信的云数据中心。

文/北京青年报记者 温婧

编辑/张丽

全部评论