[HPC存储] EXAScale对存储系统意味着什么?

发布时间:

2023-08-01 11:00

我们近来看到一家存储厂商宣传一个规模不大的项目,并自豪地将其性能与使用了 4 年的 HDD 存档系统进行比较。令人惊讶的是,这个新项目在使用 1全闪存(每台设备的带宽提高了 15 倍,IOPS 提高了 5000 倍)的情况下仅获得了 30% 的性能提升。真正的问题是:它怎么会这么慢?您将在下面找到答案。

 

DDN 一直在为世界上大规模的人工智能(AI)超级计算机提供高性能的全闪系统。与基于 NFS 的系统相比,运行结果显示:我们每个机架单元的性能提高了 30 倍。

 

还有关于 EXAScale 的讨论……

 

对于存储而言,EXAScale 到底意味着什么呢?在DDN公司产品副总裁James Coomer看来,EXAScale对存储系统意味着在大规模的效率和稳健性。数据中心通常受到能耗的限制,而存储可能是数据中心总体生产力和效率的决定者或破坏者。下面引用一段CINECA超算中心关于Leonardo超机计算机存储系统的简短陈述:

“ Leonardo超级计算机提供了改变游戏规则的AI和高性能计算(HPC)性能,以促进欧洲研究的进步。这种能力需要极端优化的存储环境才能获得更大效率。” CINECA 的 HPC 和云技术协调员 Mirko Cestari 表示。 “ 我们选择 DDN 是因为它能够加速 AI 和 HPC 工作负载生命周期的所有阶段。”

 

极端优化的存储环境以获得更大效率

存储正在提高整个数据中心的效率。应用程序等待存储会消耗能量并限制生产效率

• 能够加速AI 和HPC 工作负载生命周期的所有阶段

这意味着摄取、准备、深度学习、检查点、后处理等阶段,并且需要很好地服务各种类型的 IO 模式。

 

让我们看看大型超级计算机上跑的应用程序到底做了什么。近期的一篇论文(点击阅读原文)使用 Darshan 工具表征了 9 个学科的 23,000 多个机器学习作业的 IO 模式。有趣的发现是:写入性能与读取性能同样重要,而且绝大多数 IO 调用都小于 1 MB。这需要一个存储系统同时具备强大的 IOPS 和均衡的读写能力等属性。系统越大(例如 EXAScale系统),存储系统的这些功能越重要。

图1:每个机器学习作业平均调用数量

 

NVIDIA 数据中心系统工程师 Prethvi Kashinkunti 在与 DDN 讨论合作过程时也强调了这一点:

 

“拥有能够为读取和写入提供适当带宽的存储技术对于确保我们保持效率至关重要”

 

将现代设备的硬件性能交付到应用程序中是关键。当今的 NFS/QLC 架构由于其架构固有的低效率而无法做到把硬件性能交付给应用程序。

图2:NFS架构无法提升效率

 

通过将写入 IO 限制在一组有限的设备中,而且要求对所有写入进行分层并随后收集和重写到 QLC 闪存,这意味着效率减半且写入速度非常低。有多低?下面是DDN 和 NFS/QLC 系统完成 800GB/s 写入性能的示例。

图3:完成800GBps写入所需的DDN设备(右侧)和竞争厂商的QLC/NFS 系统(左侧)。白色矩形表示空的机架空间

 

图4:DDN AI/ES400NVX2

 

IOPS 也是如此。与 NFS/QLC 的方案相比,DDN 每个机架单元的 IOPS 高出 30 倍。DDN 通过客户端到数据的完全并行的数据路径而无需进行不必要的数据移动,从而将底层硬件设备的性能全部给到应用程序。DDN 智能客户端能够扩展到当今超大规模的计算系统。 

图 5:DDN架构

 

之前,QLC 存储在 IOPS、吞吐量、元数据和延迟方面都达不到要求,浪费了您的生产效率和数据中心的能源。直到近期,DDN 配备 QLC 盘的全新并行横向扩展平台改变了一切,它能够提供 DDN 全部的并行性能以确保 AI 和 HPC 基础设施达到极高的效率,并且没有横向扩展 NAS 那种额外的复杂性。高性能 QLC 现已启动!

 

相关新闻