Dell更新PowerScale,ObjectScale以加速 AI Factory 推出

2025-05-21ASPCMS社区 - fjmyhfvclm

Dell 正在刷新其 PowerScale 和 ObjectScale 存储系统,这是 Dell Technologies World 大会首日一系列 AI Factory 公告的一部分。

该公司将其存储系统、数据湖仓、服务器等定位为 AI Factory 产品组合的集成部分,这些产品与 Nvidia 的加速器紧密结合,不仅提供生成式 AI 工作流能力,同时也支持传统应用。PowerScale —— 前身称 Isilon —— 是其面向横向扩展的集群文件节点解决方案;ObjectScale 是一种分布式、基于微服务的多节点、横向扩展、支持多租户的对象存储软件,它提供单一全局命名空间并支持 S3 API。

Dell Technologies 首席运营官 Jeff Clarke 表示: “对于企业来说,这一年不断创新,我们不会减缓脚步。自去年以来,我们已为 Dell AI Factory 推出超过 200 项更新。我们最新的 AI 进展 —— 从开创性的 AI 个人电脑到最前沿的数据中心解决方案 —— 旨在帮助各种规模的组织无缝采用 AI,加速洞察、提升效率,并推动成果。”

作为背景,Nvidia 已宣布扩展其存储服务器/控制器 host CPU+DRAM 绕过 NVMe/RDMA 的 GPUDirect 文件协议至 S3,使得对象数据能够利用类似的 RDMA 技术快速传输到其 GPU。与 IBM 的 Storage Scale、Lustre、VAST Data、VDURA 和 WEKA 等并行访问文件系统相比,即使是横向扩展的串行文件系统(如 PowerScale 和 Qumulo)也存在速度上的劣势。Dell 对此做出了回应,并推出了 Project Lightning 计划。

考虑到这些因素,ObjectScale 产品将推出一个更高密度的版本,并集成 Nvidia BlueField-3 DPU (Data Processing Unit) 以及 Spectrum-4 网络支持。BlueField-3 由 ARM 处理器驱动,可运行诸如 ObjectScale 的容器化软件;Spectrum-4 是一款以太网平台产品,能提供 400Gbit/s 端到端连接,其组件包括 Spectrum-4 交换机、ConnectX-7 SmartNIC、BlueField-3 以及 DOCA 基础设施软件。

这一更高密度的 ObjectScale 系统将支持多 PB 级别的横向扩展,并由 PowerEdge R7725xd 服务器节点构建,这些节点配备有 2 x AMD EPYC 第5代 CPU,预计于 2025 年 6 月推出。它将提供 Dell PowerEdge 产品线中最高存储密度的 NVMe 配置。该系统配备了经过 Nvidia 增强的 BlueField-3 DPU 和 Spectrum-4 以太网交换机,计划实现最高 800 Gb/s 的网络连接性能。

供应商表示,ObjectScale 将支持基于 RDMA 的 S3,使得以对象形式存储的非结构化数据能够更快地用于 AI 训练和推理,其吞吐量可提高高达 230%,延迟降低多达 80%。此外,它还声称相比传统 S3 数据传输,CPU 负载降低了 98%。支持开放表格格式并可与 AI 平台集成的全托管 S3 Tables 功能将在今年晚些时候推出。

PowerScale 在即将发布的软件版本中将提供 S3 Object Lock WORM 功能,以及 S3 存储桶日志记录与协议访问日志记录。PowerScale 的文件到对象 SmartSync 功能能自动将数据复制至 AWS、Wasabi 或 Dell ObjectScale,以实现低成本的备份存储,并能利用 EC2 为计算密集型应用突发至云端。

PowerScale Cybersecurity Suite 是一款以 AI 驱动的软件产品,旨在提供勒索软件检测、在威胁发生时将停机时间降到最短以及近乎即时的恢复能力。该产品包含三个组合包:

1. 提供实时勒索软件检测和缓解的网络安全软件,并在攻击发生时生成完整审计轨迹; 2. 用于不可变备份的隔离保险库; 3. 用于无缝故障转移和恢复的灾难恢复软件,确保业务连续性。

Project Lightning 根据最新测试被称为“全球最快的并行文件系统,其吞吐量比竞争对手的并行文件系统高出两倍”。这一结论依据 Dell 内部及初步测试中每机架单位的随机和顺序吞吐量比较得出。Dell 尚未公布具体吞吐量数据,因此使得独立比较存在一定难度。该公司表示,Project Lightning 将加速大规模和复杂 AI 工作流程的训练时间。

Dell 表示,Lightning 是专为拥有成千上万个 GPU 的最大规模 AI 部署而量身定制的。WWT 等合作伙伴以及剑桥大学等客户正积极参与一个多阶段的客户验证计划,该计划涵盖性能基准测试、功能测试和培训,以便将产品需求和反馈融入产品开发中。

Dell 正在推出一项基于 PowerScale、Project Lightning 和 PowerEdge XE 服务器构建的高性能解决方案。据 Dell 介绍,该产品将采用 KV cache,并集成 Nvidia 的 Inference Xfer Library (NIXL),这是 Nvidia Dynamo 产品的一部分,使其非常适合大规模、复杂、分布式的推理工作负载。Dynamo 致力于在大规模分布式环境中服务生成式 AI 模型,其优化功能特别针对大语言模型 (LLM),例如支持分离服务与 KV cache 感知路由。

一张 Dell 幻灯片显示,在 AI 数据平台概念中,Project Lightning 作为一个软件层位于 ObjectScale 与 PowerScale 之上:

当被问及此事时,Dell 高级产品管理总监 Geeta Vaghela 表示:“我们确实开始看到,并行文件系统不再是通用的,而是专门针对 AI 使用案例和工作流进行优化。” 她预见该技术将与 KV cache 整合。Dell 目前正计划对 Project Lightning 软件开展私有预览。

Dell 表示,其 AI 数据平台更新将改善 AI 生命周期内对高质量结构化、半结构化和非结构化数据的访问。Dell 数据湖仓增强功能旨在简化 AI 工作流并加速各类用例,例如通过创建及查询 AI 就绪数据集来驱动推荐引擎、语义搜索和客户意图检测。具体而言,Dell 数据湖仓获得了以下改进:

-在由 Starburst 驱动的 Dell 数据分析引擎中原生集成矢量搜索,将语义理解直接引入 SQL 工作流,实现结构化查询处理与非结构化数据探索之间的桥接;

-混合搜索功能,通过在单个 SQL 查询中结合语义相似性与传统关键词匹配,扩展了矢量搜索能力;

-内置大语言模型函数,能够将文本摘要、情感分析等工具融入基于 SQL 的工作流;

-自动化冰山表管理,自动执行压缩和快照过期等维护任务。

作为整体 Dell AI Factory 公告的一部分,还包括对 PowerEdge 服务器和网络交换机的更新。Dell 正在与 Nvidia 一同推出面向 Dell AI Factory 的托管服务,以简化 AI 运维,涵盖完整的 Nvidia AI 解决方案栈,包括 AI 平台、基础设施以及 Nvidia AI Enterprise 软件。Dell 的托管服务专家将提供 24×7 的监控、报告、版本升级和补丁管理。

Nvidia AI Enterprise 软件平台现已可直接通过 Dell 获得,客户可以在 Dell AI Factory 中使用 Nvidia NIM、NeMo 微服务、Blueprints、用于 RAG 的 NeMo Retriever 以及 Llama Nemotron 推理模型。Dell 表示,客户能够“在缩短 AI 成果实现时间的同时,无缝开发具备自主决策能力的工作流。”

Dell AI Factory 与 Nvidia 的联合方案支持 Nvidia Enterprise AI Factory 验证设计,其特点是整合了 Dell 与 Nvidia 的计算、网络、存储以及 Nvidia AI Enterprise 软件,为企业提供端到端、完全集成的 AI 产品。Red Hat OpenShift 同样可在 Dell AI Factory 与 Nvidia 环境中使用。

供应情况

- Dell Project Lightning 现已向部分客户和合作伙伴提供私有预览。

- Dell 数据湖仓更新将于 2025 年 7 月开始推出。

- 搭载 NVIDIA BlueField-3 DPU 和 Spectrum-4 以太网交换机的 Dell ObjectScale 计划于 2025 年下半年上市。

- 基于 Dell PowerScale、Dell Project Lightning 和 PowerEdge XE 服务器构建的高性能系统计划于今年晚些时候上市。

- 对基于 RDMA 的 S3 支持的 Dell ObjectScale 将于 2025 年下半年推出。

-可直接从 Dell 获得的 NVIDIA AI Enterprise 软件平台将于 2025 年 5 月上市。

- Dell AI Factory 与 NVIDIA 的托管服务现已上市。

全部评论