AI存储-采用 DDN AI400X2 存储设备 服务大语言模型的未来

发布时间:

2023-12-29 13:00

要点

• 在过去几年中,大语言模型(LLM)的规模增长了惊人的 1000 倍,这揭示了训练和推理过程中内存限制和资源利用率的挑战。

• 软件栈旨在优化内存使用并将部分模型从 GPU 内存卸载到其他存储形式(例如本地 NVME),但这种方法可能不是大规模 LLM 的上佳架构。

• 并行文件系统设备提供卓越的性能和简单的可扩展性,其主要优势在于能够横向扩展到数百 GB/s 的读写操作,以及向单个 GPU 或 GPU 系统高效传输数据。

• 为部署LLM和其他人工智能(AI)工具做架构选择时,考虑这些模型在将来五年的增长至关重要。在关注 GPU 计算的同时,考虑为GPU提供数据的后端数据基础设施也很重要。

 

大语言模型正在应用于多种多样的任务,包括增强搜索、内容生成、内容摘要、检索增强生成 (RAG)、代码生成、语言翻译和会话聊天。这些强大的模型在自然语言处理 (NLP) 领域掀起了一场风暴,因为它们在各个领域和行业中都表现出了卓越的能力。虽然传统的 NLP 工具仍占有一席之地,但很明显,具有通用能力的LLM (如Microsoft Bing 和 ChatGPT) 显示出它们巨大的潜力。

 

这些LLM是纵向扩展的模型,拥有数十亿到数万亿个参数,并且始终优于规模较小的模型。在短短几年内,我们见证了模型规模惊人的 1000 倍增长。然而,这种增长也带来了一系列挑战,特别是在训练和推理过程中的内存限制和资源利用率。

 

为了应对这些挑战并为模型规模下一个 1000 倍的增长做好准备,多个软件堆栈已经开发了出来。这些堆栈优化内存使用,并将部分模型从 GPU 内存卸载到其他存储形式(例如本地 NVME)。虽然这种方法有其优点,但它可能不是大规模LLM的上佳架构,大规模LLM预计将在未来几年内变得很普遍。

 

《大语言模型:数据的崛起》这份白皮书,我们介绍了一种解决方案来有效优化这些大型 LLM 训练性能:DDN 的 AI400X2 存储设备。我们的并行文件系统设备提供卓越的性能和简单的稳定性,远远优于本地存储解决方案。AI400X2 的主要优势在于能够横向扩展到数百 GB/s 的读写操作,以及能够高效地将数据传输到各个 GPU 和 GPU 系统, 这使其成为高效运行LLM的理想选择。

 

为了展示 AI400X2 的优越性,我们使用 DeepSpeed 库中的 ZeRO-Infinity 卸载功能在单台 8 卡 GPU 系统上进行了广泛的测试。结果不言自明:DDN AI400X2 的性能几乎是本地 RAID 存储的 2 倍,同时支持使用更大的模型(在我们的测试中,单个节点上高达 24 万亿个参数)。另一方面,GPU、CPU 和本地 NVME 解决方案面临着限制,这使其要么无法使用,要么非常昂贵。

 

但这不仅仅是性能问题,AI400X2 还提供了一种增加容量的简单方法,使其成为能够处理推理甚至极大的 LLM 推理的理想解决方案。对于内存要求更高的训练和微调,AI400X2的优势更加明显。根据我们的测试结果推断,我们估计需要超过 750 台 GPU 系统才能把BLOOM-mod-2 大小的模型放入 GPU 内存中,相比之下,只需四台 AI400X2 设备和一台 GPU 计算系统(启用卸载功能)就可以做到。

 

这些发现有着深远的影响。虽然目前在单节点上似乎不可能预训练如此庞大的模型,但它为微调、推理以及对稀疏模型(这类模型将计算与模型大小分离)日益增长的兴趣提供了令人兴奋的可能性。

 

总之,大语言模型为那些期望创造价值和获得竞争优势的企业带来了巨大的前景。为部署LLM和其他AI工具做架构选择时,考虑这些模型在将来五年内的增长至关重要。在关注 GPU 计算的同时,考虑为GPU提供数据的后端数据基础设施也很重要。DDN 的 AI400X2 存储设备提供了一个长期解决方案,可以适应这种增长,同时提高效率和简单性。

 

大语言模型的未来已经到来,而 DDN 处于这场变革的前沿。拥抱 AI400X2 的力量,在生成式 AI 的世界中为您的企业解锁新的可能性。

相关新闻