[人工智能AI存储] DDN公司助力数据为中心的企业加快AI创新
发布时间:
2021-01-20 00:00
DDN公司助力数据为中心的企业加快AI创新
DDN AI400系列存储系统获得NVIDIA DGX SuperPOD解决方案的认证,并为全球知名的Selene超算AI平台提供可扩展的PB级强大存储平台。
英伟达公司的Selene系统是全球先进的人工智能系统,也是目前产业界性能名列前茅的人工智能系统,它推动了人工智能在大规模科学发现、开发和部署方面的多种突破。
自1999年英伟达发明GPU以来,该公司已经在计算创新、深度学习和数据分析方面树立了新标准。2020年5月,英伟达推出的NVIDIA DGX™ A100系统再一次提高了标准。
英伟达的DGX A100系统将整个数据中心的能力整合到一个单一的平台上,这彻底改变了企业开发和部署复杂的机器学习工作流和人工智能模型的方式。这种计算理念也促成了Selene系统的诞生,Selene是全球第五快的超级计算机(2020年11月TOP500排行榜),也是全球性能名列前茅的商用系统,它是由560台DGX A100系统组成的DGX SuperPOD解决方案。目前, DGX A100系统正被广泛用于抗击COVID-19疫情、自动驾驶研发、超大规模语言模型开发,它几乎改变了企业人工智能业务的方方面面。

详尽的内部研究和客户意见为产品开发提供了信息。英伟达副总裁兼DGX系统总经理Charlie Boyle解释道:“英伟达花费了大量精力来设想先进的技术应该是什么样,以及下一代架构应该如何发挥性能。”“我们按照理论上的可能性以及如何快速实现来测评我们的工作。”
挑战
l 人工智能模型指数级的增大需要极快的存储,要求每块GPU有更高的数据速率和更大I/O带宽。
l 高度并行地访问大小数据集使得均衡的存储性能变成必需。
l 存储架构具有灵活性并易于横向扩展才能够满足数据中心的逐步扩展和按需扩展要求。
在打造先进的人工智能系统的过程中,英伟达试图降低日益多样化的人工智能模型的复杂性,包括人工智能对话系统、推荐系统、计算机视觉工作负载和自动驾驶汽车。因此需要数据中心级别的计算来满足AI模型和数据集在多个系统之间并行处理,让用户在几小时内就能完成训练,而不是几周,英伟达产品营销高级总监Tony Paikeday表示。
为了减少解决问题的时间,英伟达采用计算、网络和存储一体化的构建模块,将大规模的计算问题分配到几百个并行工作的系统中。这种模块化架构允许企业根据业务需求扩展资源,满足不断演进的人工智能需求——引入大规模人工智能。这种方法需要极快的存储性能来支持密集的计算需求。
“我们正在挑战可能的极限,这意味着要让强大的计算与超高速、低延迟网络以及极快的存储都保持一致的高性能。”Paikeday补充道。高度并行地访问大小文件显得尤其重要,同时,存储具有无缝横向扩展能力才能确保DGX SuperPOD模块化架构的逐步扩展。
解决方案
为了应对上文提到的挑战, 在为Selene系统挑选理想的存储时,英伟达将DDN公司变成了长期合作伙伴。DDN公司在高速数据存储领域取得了广泛认可的辉煌成绩,其解决方案正好可以完善英伟达DGX系统整体解决方案的存储环节。DDN公司的AI400X存储设备是DDN A³I存储系列产品之一,AI400X提供全闪存和混合存储方案来满足高性能和大容量的需求。另外,DDN的AI400X存储设备还与英伟达的Mellanox InfiniBand交换机无缝集成,这对确保DGX A100的无缝运行和简单扩展至关重要。
英伟达人工智能系统总架构师Michael Houston表示:“DDN是值得相信的合作伙伴,DDN团队与我们合作让我们更大限度地利用了存储平台。双方深入的工程合作让DDN存储平台的性能和可扩展性都全部发挥出来。”

英伟达人工智能系统总架构师Michael Houston
在实验测试和真实数据测试期间,双方的快速响应让问题得以迅速解决。Boyle表示:“Michael的团队和DDN之间的密切合作确保了在很短的时间内,所有东西的大小、组装和使用都是正确的。”“在不到一个月的时间里搭建Selene系统是一项艰巨的任务,但详尽的规划和强大的合作伙伴关系让Selene成为现实。”
优势
l 显著提高人工智能工作负载的性能能让企业更快地迭代,并提高数据科学的生产率。
l 模块化平台确保了AI基础设施具有可扩展性、更快的速度、更高的成本效率。
l 完全集成的AI参考架构让AI基础设施普遍适用于不同工作负载,并且简化了部署和运行。
英伟达公司的Selene系统是DGX SuperPOD参考架构强大功能的生动证明。通过DGX SuperPOD,英伟达赋能全球各种机构创建人工智能卓越中心,而DDN公司的可扩展、高性能存储在这些快速跟进的项目中发挥了重要作用。Selene系统配备了14PBs的DDN A³I存储,A³I存储与英伟达的DGX A100系统一起部署,为各行各业GPU加速的工作负载提供支持。
英伟达的DGX SuperPOD参考架构有多种配置,集群规模可以由20个到140个DGX A100系统组成。作为DGX SuperPOD的一部分,可扩展的DDN存储精简了复杂的超算环境。Paikeday表示:“DDN存储为DGX SuperPOD带来的好处是它缩短了数据存放地点和数据工作地点之间的时间和距离。”
DDN存储的模块化架构也使得高性能计算部署可以在几周内完成,而不是几个月甚至几年,这与DGX SuperPOD的模块化构建理念完全匹配。此外,配备DDN存储的DGX A100系统的性能优势不仅仅在于速度提高,而是改变了信息处理的方式。Houston补充道:“DDN存储的性能和可扩展性对于减少解决问题的时间至关重要。”
DDN存储的优势还体现在能效上,DDN帮助英伟达的DGX SuperPOD系统在2020年11月的Green500排行榜上名列首位,这是全球能效超高的商用系统。“对于我们要求的性能和容量,DDN存储方案的能耗是很低的。”Houston补充道。
未来的挑战
DDN和英伟达之间的互信合作伙伴关系为双方持续合作奠定了基础,双方合作增加新功能并增强特色,例如,分层对象存储和持久客户端缓存(PCC)功能将与持续增长的数据和不断演进的人工智能需求保持同步。
Paikeday总结道:“有DDN这样的合作伙伴与我们的工程师并肩工作来应对重大挑战,这才是合作伙伴真正的价值所在。”“我们一起挑战当前的极限,同时探索未来的新前沿。”
相关新闻
暂无数据