AI存储-建立您的生成式AI卓越中心

发布时间:

2023-10-20 08:00

要点

 

  • 并非所有人工智能(AI)项目都需要超级计算机级别的基础设施,但有一些关键领域需要重新考虑传统 IT 方法是否合适。

  • 建立AI卓越中心能够使您专注于AI特定的挑战、积累专业知识并在团队之间进行协作,同时迈向AI驱动的新未来。

  • DDN的AI存储方法与传统存储技术不同,因为它支持多轨数据传输,可避免高吞吐量应用中的瓶颈,从而提高数据传输的效率和吞吐量。

 

 

在近期的一次活动中,我与客户和合作伙伴讨论了大规模系统设计中哪些是很重要的方面:总体性能数据、经过认证的参考架构、详细的数据表,或者提供专业知识以帮助解决现实世界的问题。我们都同意:虽然前三个是重要的点,但人的参与将所有这些结合在一起,通过应用实际经验和技术来创造真正的商业价值。

 

在之前发表的文章《如何训练你的生成式AI巨龙》中,我们研究了生成式AI如何比创建文本或图像更强大。我们的特邀作者 Technaanalysis 公司的 Bob O’Donnell 讨论了组织如何通过调动和利用未开发的数据来启动其AI战略,推动各个层面的差异化和创新。当我们从设想转向实施时,并非所有AI项目都需要超级计算机级别的基础设施设计,但在一些关键领域需要重新考虑传统 IT 方法是否合适。本文将探讨我们如何整合专业知识和技术来帮助创造独特的商业价值。

 

当组织希望从AI概念转入AI实施时,我们需要选择一条能够帮助我们实现短期目标的路径,同时提供一个面向未来的平台。每一步都是对未来的投资,因此建立 AI 卓越中心的想法使我们能够专注于 AI 特定的挑战,积累专业知识,并在团队之间进行协作,迈向新的AI驱动的未来。

 

让我们看一些关键的重点领域:

 

多样化的工作负载需求

 

我经常听到人们谈论 AI 的专用架构、新兴软件堆栈和低延迟网络,而新一代的高性能 GPU、互连和闪存显然是这方面的技术引领者。

 

但实际上,在做出技术决策之前,我们需要关注业务成果:AI 是一种不同类型的工作负载,它对计算、网络和存储提出了不同的要求。工作负载与模型的大小有关,有些模型可以放在 GPU 的内存中,而其他模型则更依赖于 I/O。AI、机器学习、深度学习、生成式AI、边缘AI分别代表了不同风格的工作负载,一个 AI 项目做长期战略时可能需要考虑不同的工作负载的需求。

 

加速计算的兴起

 

虽然较小的模型可以在传统 CPU 服务器上运行,但高性能计算加速器的出现改变了AI 和机器学习的范围。由于许多商业模型和框架在大规模矩阵或图数据结构上运行,大规模向量或图模型的并行运算能力使得快速的存内 (in-memory) 功能变得很重要,大量利用图形和可视化 GPU 技术 。

 

实现这一目标的关键因素是将这些高性能 GPU 加速集群与商业服务器和网络技术相结合,使它们能够轻松地在传统数据中心架构中集成和管理,从而将该技术带给更广泛的受众并打开通往更大的创新之门。

 

AI数据存储和直接联网的需求

 

然而,正如我们在之前的文章中所看到的,模型和数据集的规模正在不断扩大,尤其是在生成式 AI 领域,这是由于人们渴望更高的准确性、更广泛的词汇量和更丰富的创造力以获得更具吸引力的体验。例如,新的大语言模型(LLM),起初的 ChatGPT包含 1750 亿个参数,而下一代 GPT-4 模型大小估计将大 1000 倍。

 

模型尺寸变大,而训练数据集变得更大(通常由数百万个小文件组成,总计容量达数十个TB或更多,而不是单个数据范围)。对于较小的模型,它有可能放入 GPU 内存,这对于高速 AI 推理来说非常有用。然而,模型训练是一种完全不同类型的工作负载,需要加载和重复加载训练数据达数百次或数千次,并且频繁地写出中间检查点结果。

 

传统存储技术的吞吐量(读写两方面,尤其是写入)有限。如果一个数TB的数据集需要被读入内存达数百次或数千次,那么读取吞吐量将成为一个严重的瓶颈。如果1TB的检查点只能以较低的速度写出,那么这可能会使 AI 训练周期变长,并可能成为 AI 项目成功的障碍。

 

DDN多轨技术

 

DDN的 AI 存储方法与传统存储技术不同,因为它支持多轨数据传输,可以避免高吞吐量应用中的瓶颈,从而提高数据传输的效率和吞吐量。多轨支持对客户端系统上的多个网络接口进行分组,可实现更快的聚合数据传输功能:流量在所有接口之间动态平衡,并且链路受到监测以检测故障并自动恢复。

 

新一代 InfiniBand (IB) 和以太网在应用程序、计算服务器和存储设备之间提供高带宽和低延迟的数据传输。如今,IB网已成为 HPC 和 AI 系统设计的黄金标准。IB网具有多对多互连链路,可提供从客户端到存储服务器的直接连接。然而,大多数存储技术只能支持单轨传输,并且无法利用这种高度网络化配置中可用的大带宽。

 

DDN 优化数据路径

 

DDN 还优化数据路径,从而降低延迟并提升效率。例如,许多存储技术都采用 RDMA(远程直接内存访问)将数据传输到系统内存或从系统内存向外传输数据,DDN 首先实现了直接传输数据到 GPU 内存,完全绕过系统内存。

 

这意味着DDN AI400X2系统不仅避免了额外的I/O缓冲区复制,还避免了复制到CPU内存再传输到GPU内存中,从而进一步简化了数据路径。

图1:经过CPU内存传输的数据路径

 

图2:直接传输到GPU内存的数据路径

 

DDN Hot Nodes

DDN 的创新功能如Hot Nodes进一步拓展了峰值性能。Hot Nodes在 GPU 系统的本地 NVMe 上自动缓存数据,通过避免数据经网络往返可减少 IO 延迟和流量。训练模型通常需要多次重复读取数据集——这种多轮epoch的学习过程给计算、网络和存储带来了沉重的负担。通过将训练数据复制到 GPU 本地存储中,可以释放网络并将流量提供给其他用途如摄取、标记和归档,从而提升效率。

 

DDN 将多年积累的高性能系统经验融入到新一代的 DDN A3I 系统中,已经在全球一些很大的部署中得到验证,由我们的技术和集成合作伙伴所认证的参考架构提供支持。

 

此外,DDN 存储专家可以与您合作设计一个存储架构,以提供上佳的性能和效率,并支持您建立自己的 AI 卓越中心,该中心作为团队分享行业实践、创新和协作的重点,支持您的 AI 计划。

 

想要详细地了解通过建立自己的 AI 卓越中心创造的机会吗?点击下载DDN 与 NVIDIA 和 Small World Big Data 合作编写的《企业人工智能基础设施指南》,探索前沿技术与战略愿景的融合如何塑造未来的业务。

相关新闻