[HPC存储] NVIDIA Eos AI 超级计算机需要巨型存储系统
发布时间:
2022-04-22 00:00
在近期举行的GTC22大会上,NVIDIA宣布正在建造全球运行速度超快的 AI 超级计算机 Eos。该系统预计将提供 18.4 Exaflops 的 AI 计算性能,比速度名列前茅的日本Fugaku 超级计算机快 4 倍;在传统的科学计算方面,Eos 预计将提供 275 Petaflop 的性能。Eos超级计算机预计于今年晚些时候开始运行,将用于NVIDIA内部在气候科学、数字生物学和 AI 方面的研究工作。

Eos系统采用DGX SuperPOD架构建造,共配备 576 台 DGX H100 系统 (每台系统配备8块 H100 GPU),共计 4608 块 DGX H100 GPU。32台 DGX H100 系统组成一个DGX POD,因此,Eos系统由18 个DGX POD 组成。要为如此众多的GPU快速地提供数据也意味着Eos系统需要极大的存储系统(至少数百PB的全闪容量,以及若干二级存储),这样才能保证GPU处于忙碌状态,而不至于因等待数据传输而空闲。
由于每个DGX计算节点将包含2颗NVIDIA BlueField-3 DPU以用于工作负载的卸载,加速和隔离。因此,存储系统预计也将采用BlueField-3 DPU作为前端NIC和存储处理器。
在DGX POD中,DGX H100节点之间和H100 GPU之间都通过NVLink Switch系统连接,GPU之间移动数据的对分带宽高达70 TB/sec,是上一代产品的11倍。要达到这样的高带宽需要存储系统有足够的容量和速度提供支撑。

除此之外,存储厂商还需要具备丰富的工程经验以及实施能力来配合NVIDIA的集成和测试。
那么,NVIDIA究竟会选择哪家的存储系统来匹配Eos 这样先进的AI 基础设施呢?让我们拭目以待。
相关新闻