AI存储-普渡大学使用DDN升级Gilbreth集群存储,满足AI研究人员需求

发布时间:

2024-03-11 18:04

认识到新兴科学领域对更快、更大存储容量的需求,普渡大学(Purdue)罗森先进计算中心 (Rosen Center for Advanced Computing,RCAC) 近期将其 Gilbreth 集群的存储容量增加了一倍。针对运行 AI 和机器学习等 GPU 密集型应用的群体,RCAC 对Gilbreth集群进行了优化。

 

 

Gilbreth 的存储容量不仅升级为之前的两倍,而且还采用了改进的设计,可实现更快的存储处理。

 

新的存储系统使用了 DDN 的 Exascaler 400NVX2-S 设备,总容量为 4.56 PB(4.3 PB 可用),并采用与以前一样的分层方法,但它提供了更大的持久、快速非易失性内存快速层以改进元数据处理和数据缓存。新的存储控制器设计以及其明显改进的硬件将使控制器更接近存储并加快数据存储过程。

 

这些更新增强了 Gilbreth GPU 和处理器的数据管道,从根本上来说,有助于托管和访问更大的数据集并加快应用速度,从而缩短研究人员的科学研究时间。

 

RCAC 科学应用总监 Arman Pazouki 表示:“ 对 Gilbreth 存储的改进是我们支持AI和科学领域高级研究的众多措施的一部分。”

 

“AI应用还依赖于大量的数据和文件。随着 GPU 数量和每个 GPU 的 FLOP(每秒浮点运算)数量的增长,它们将继续在每次仿真中处理更大量的数据。Purdue Computes 计划将对校园 GPU 利用率的增长发挥决定性作用。所有这些都表明了数据的重要性,包括容量和传输速度,这就是这次升级的目的。” Pazouki 补充道。

 

RCAC 的早期基准测试表明,新存储系统的读/写操作均显著提高:数据吞吐量平均提高 116%,每秒输入/输出操作平均提高 25%。更高的吞吐量意味着更快的数据传输,而更高的输入/输出操作对应着更好的存储性能和响应能力。

 

计算机科学副教授 Daniel Aliaga 表示,使用新的存储系统,“我的学生注意到加载大型库的时间明显缩短”,Aliaga使用了 Gilbreth 集群100 块 GPU 为 330 多个美国城市创建了城市表征。

 

除了这项工作之外,Aliaga 和他的学生还将 Gilbreth 的 GPU 用于其他几个项目,包括:

• 一个计算考古学项目,他们与布朗大学、范德比尔特大学和普渡大学的考古学家合作,试图推断和重建秘鲁、希腊和土耳其的古代 考古遗址;

• 利用大语言模型(LLM)帮助城市设计和规划,将城市几何数据与人口普查数据中的社会经济信息相结合,以便能够为城市布局改进提出建议;

• 利用生成式AI方法来生成可用于各种应用的详细、逼真的室内城市空间;

• 开发方法用于在全国城市的卫星图像中定位树木。

 

Daniel Aliaga教授在 RCAC 数字孪生研讨会上发言

 

“这种对计算资源的投资,以及比自建更好的定价结构将确保普渡大学的教职员工能够获得高尖资源以确保他们的竞争力,同时也受益于公共集群项目的专业维护和科学支持,确保他们的研究得到适当的保护,并且他们可以专注于科学成果而不是技术问题,”RCAC 执行董事Preston Smith 表示。

相关新闻