AI存储-DDN 扩大对 NVIDIA 技术的支持,在数据中心基础设施中实现 AI 应用加速

发布时间:

2024-04-05 16:15

随着人工智能(AI)技术的成熟,多种多样的 AI 应用正在进入不同的市场。在众多此类项目中,有两个核心要素:NVIDIA 加速计算和对数据的持续需求。在前不久举行的全球 AI 大会 NVIDIA GTC24 期间, DDN 展示了 AI400X2 Turbo 新产品,并宣布扩大针对NVIDIA 参考架构、参考设计和产品的认证和资格评定。这些公告代表了我们满足客户市场各种需求的承诺,以及我们始终致力于为客户的加速计算基础设施提供高价值的决心。

 

采用 DDN AI400X2 存储的NVIDIA OVX 参考架构

 

把DDN AI 存储解决方案与 NVIDIA 认证的 OVX 服务器和高速 NVIDIA 网络相结合,可支持您获得与其他超级计算解决方案相同的超高GPU 利用率和存储简单性。

 

 

NVIDIA OVX 参考架构面向企业客户运行生成式 AI、推理、训练和工业数字化应用。OVX 系统由高性能基础设施组成,包括NVIDIA L40S GPU 与 NVIDIA Quantum-2 InfiniBand 网络或 NVIDIA Spectrum-X 以太网和 NVIDIA BlueField-3 网络,以及用于 AI 工作负载的 NVIDIA AI Enterprise 软件和用于图形密集型工作负载的 NVIDIA Omniverse 平台 。

 

DDN 很荣幸成为首批加入新的 NVIDIA OVX 存储验证计划的公司之一。为了完成这一验证,DDN 运行了一套测试,测量存储性能和跨多个参数的 I/O 扩展,这些参数代表了各种 AI 工作负载的严苛要求。已经完成的验证为企业提供了一个标准化流程,帮助确保企业把正确的共享存储设备与 NVIDIA 认证的 OVX 服务器和高速 NVIDIA 网络进行配对。

 

如果一个组织中的数据源存在异构并且不兼容,那么就很难将各个点连接起来并获得有价值的业务见解。为了加快您的投入回报,您需要一个现代化的数据平台来支持快速、敏捷地开发AI应用程序,扩大 AI 在整个组织中的影响力,以及降低总体成本。DDN的 A³I 存储解决方案为 AI 基础设施(该基础设施能为大型 AI 集群提供所需的高速网络和并行存储访问)提供了一种独特且经过验证的方法。

 

AI400X2-QLC 通过 NVIDIA DGX BasePOD 认证

 

我们去年发布了 AI400X2 存储平台的 QLC 介质版本,并已完成 NVIDIA DGX BasePOD 参考架构对 AI400X2-QLC 认证。虽然我们基于 TLC 介质的 AI400X2 系统非常适合需要峰值性能和低功耗的企业级 NVIDIA DGX SuperPOD 解决方案,但我们基于 QLC 的系统能为各种工作负载提供更多功能性和更大的容量。

 

DDN 的 QLC 架构释放了此类闪存的能力,同时还保持了设备超长的使用寿命。通过将数据直接写入 QLC,而不是在介质前面提供内存缓存层,DDN 可确保客户投资的高价值,并在容量增长时采用简单的方法进行扩展。

 

基于 NVIDIA BlueField 3 SuperNIC 的DDN解决方案

 

我们对 NVIDIA Spectrum-X 以太网基础设施的支持方式之一是将 NVIDIA BlueField-3 集成到我们内置了 EXAScaler 6 文件系统的平台中。NVIDIA Spectrum-X 网络平台采用 NVIDIA Spectrum-4 交换机和 BlueField-3 SuperNIC,它是为了提高基于以太网的 AI 云的性能和效率而专门设计的头一个以太网平台。

 

优化对于 AI 堆栈的每个部分都至关重要,但存储通常会遇到非常密集的 I/O 瓶颈,因为数千个计算客户端经常同时访问数量有限的存储节点。通过利用 NVIDIA BlueField-3 和 RoCE(基于融合以太网的RDMA)协议,DDN 可以为基于以太网的基础设施和基于 NVIDIA Quantum InfiniBand 网络的基础设施提供相同的高性能效率。

 

DDN在数据中心基于以太网的性能

 

近期的测试表明,融入到EXAScaler 6.2 中的优化为以太网带来的性能几乎与基于 InfiniBand 网络的吞吐量不相上下。现在,喜欢以太网的客户可以获得极好的性能用于其可扩展的 AI 工作负载。尤其重要的是,通过增强 EXAScaler 软件,写入性能可提高 6 倍。企业 AI 存储解决方案需要在所有 I/O 特性之间实现均衡的性能,而 EXAScaler 系统现在可以提供全面的以太网性能,以补充客户的 AI 云。

 

 

支持NVIDIA Grace CPU超级芯片

 

测试还证明了使用 DDN 的 A³I 系统为基于 NVIDIA Grace CPU 超级芯片的系统传输数据的效率。与现有的 x86 客户端相比,由于更快的 Grace 超级芯片,我们观察到读取性能提高了 2 倍,写入性能提高了 35%。随着客户不断增加 AI 模型的复杂性和规模,数据中心的 CPU 和 GPU 的性能必须由同样高效的共享存储来支持。无论是运行仿真、数据分析还是 AI 工作负载,NVIDIA Grace CPU 超级芯片系统匹配 DDN A³I 存储都是数据密集型工作负载的理想组合。

相关新闻