11

2023

-

04

GTC23精彩回放| DDN演讲 - 存储软硬件如何让AI系统运行更快


在刚刚结束的Nvidia GTC23大会上,DDN资深产品副总裁James  Coomer 博士做了题为《释放闪电般的存储速度,实现无以伦比的 AI 效率和性能》的报告。在演讲中,他首先介绍了DDN公司的历史,并就DDN的软件和硬件如何让AI系统运行得更快做了深入的技术探讨。

 

 

DDN公司20多年来致力于构建大规模存储和数据管理解决方案以解决诸如AI、HPC和其他大规模非结构化数据的问题。到目前为止,DDN已经为绝大多数的Nvidia SuperPOD系统(如Nvidia SELENE系统和在英国部署的剑桥-1号)提供了存储方案,用于AI系统的全闪NVMe出货量超过2.5EB。这些 SuperPOD系统已用于生命科学或金融服务,用在许多国家实验室以及那些正在做大规模NLP的组织中。DDN和Nvidia及Nvidia的客户一起开发了许多优化,并且编写了相当综合性的参考架构,介绍如何匹配DDN存储系统与Nvidia DGX系统以提升效率。

 

DDN A3I 的软硬件架构

AI400X2是DDN第二代NVMe全闪平台,它带来难以挑战的高性能,易于部署和管理,具有真正无限的扩展性。此外,它还具备一套完整的企业功能,包括压缩和快照,完整的数据保护和安全。系统中包含的许多功能可保护您的数据安全,以免受到存储位衰减和存储位变化的影响,并保护您的数据免受恶意威胁。

 


 

DDN致力于从架构上简化基础设施。不像其他存储系统由于其架构原因使用了外部交换机和外部JBOD,我们已经在存储系统中提供了所需的全部服务并对其虚拟化,因此DDN的整个堆栈和软件方面都简化了。不过,我们也保留了分层,数据管理,Hot Pools 和 Hot Nodes 以及加密等功能,所有这些都被虚拟化为一个仅为2个机架单元(2U)的起始套装。DDN的 A3I 存储解决方案可以横向扩展。我们可从2U开始,它提供一个数百TB的命名空间,通过增加更多的 400X2 系统来增加命名空间的大小,而用户看到的只是一个大型的存储池。就文件系统而言,它能扩展到很大的规模并且它们能够始终提供非常强大的性能,几乎与它们正在用的 IO 类型无关。因此,通过简化堆栈,DDN已经简化了组件树,这意味着减少能耗,以很小的能耗实现极高性能,而且占用数据中心的空间非常小。

 

DDN 在处理数据方式上与众不同的地方在于我们有智能客户端配合应用程序使用,该客户端能够跨越存储基础设施访问数据并且知道数据放在哪里。因此,一旦应用程序需要读取某些数据,我们的智能客户端就会并行地去访问数据,直接去到数据所在地并将其传送给众多的服务器,该过程延迟低,有非常高的效率。其他的存储系统必须有一个后端网络,那是因为其客户端不够智能,它不知道数据在哪里,因此不得不转到一组服务,这通常需要管理员预先确定,这也意味着后端数据移动。对用户来说,总归的结果是需要更多的硬件,消耗更多能源,得到较低的性能,数据检索的延迟更高。因此,DDN真正的并行架构意味着我们获取数据是从数据所在的位置读取数据,这祛除了性能方面和扩展方面的复杂性

 

为什么写入和读取性能同样重要?

从根本上讲,这是关于检查点的问题。当前,AI 应用关键的挑战并不仅是把数据读入Nvidia GPU来运行机器学习训练或推理,问题还包括在深度学习中,尤其是大规模NLP训练,要求经常地保存检查点(即把内存状态,客户端和应用程序状态保存到存储中)。这样做可以保证您的数据安全并让您拥有更大的灵活性。比如,在NLP训练过程中,特别是当参数量超过数百亿个时,需要很好的写入性能。出色的写入性能正是Nvidia选择DDN的原因之一。我们不仅能够让机器学习方面的数据饱和而且能处理那些棘手的检查点,我们还可以线性地扩展。

 

NLP已经在许多不同的行业中获得了广泛的人气,对于当今几乎所有拥有数据的组织来说,NLP也变得越来越重要。James在演讲中举了一个GPT3模型的例子。三年前的GPT3模型就有130亿个参数,今天这类大语言模型要大40到50倍。训练GPT3使用了128台DGX A100和DDN共享存储。当读取数据集时,DDN能以超过1TB/s的速率把数据从存储系统传输到AI环境中。因为训练GPT3所用的是一个如此庞大的系统,跨越了许多套设备,就有可能出现硬件故障。为了克服这一点,需要不时保存数据的状态才不会丢失所有的历史。使用DDN, 用户做到了快速地保存检查点到存储环境中。另外,保存检查点还可以方便用户重新启动模型并采用一些不同的参数。如果用户看到模型没有正确地收敛,就能够把它停下来并重新启动。检查点问题(即数据写入问题)对此至关重要。

 

DDN A3I 加速 AI 端到端数据生命周期

DDN A3I 存储不仅在 AI 训练方面展现出极大的优势,还可加速整个 AI 数据生命周期,包括:

  • 快速摄取数据: 即写入性能问题

  • 快速整理数据:摄取数据后,您会在上面做一些元数据操作,创建许多小文件。查看IO500基准测试中的10节点挑战结果,您会发现DDN文件系统非常强大的元数据性能。

  • 更好地集成到您的生态系统:用于存储的 API 可帮助您管理数据,我们的辅助产品如DDN Data Flow 使您在使用A3I解决方案时更轻松地移动数据,给数据加标签和管理基础设施。

  • 更经济划算地长期保存数据:我们通过两种方式做到这一点,一种是数据缩减技术结合低成本NVMe闪存,另一种是完全原生集成带有HDD的分层解决方案。采用任何一种技术,我们都能够经济划算地保存数PB,数十PB甚至数百PB的数据,同时保持数据活跃,在线和快速。

 

如果您想了解 DDN 存储在 AI 领域的更多情况,请访问DDN中文官网,或点击免费下载新的 AI 白皮书:

  1. 《如何建立AI卓越中心 加速获得AI专业技能》

  2. 《AI工程:AI与机器学习的新学科》

  3. 《简化AI数据管理:优化数据管道的五条建议》

 

如果您错过了James  Coomer 在 GTC23 大会的演讲,欢迎观看以下精彩回放。

 

 

#AI存储 #DDN存储 #人工智能 #NLP #企业级AI #高性能计算

了解更多关于DDN存储:https://www.ddnstorage.com.cn/product_gs.html

 

往期推荐