AI存储-解读 MLPerf 存储基准
发布时间:
2023-10-25 10:49
本月,blocksandfiles.com 网站的 Chris Mellor 撰文解读了首期 MLPerf 存储基准测试,并认为每个存储系统支持的GPU数量可能是衡量效率的更好指标。DDN对 Chris 的文章做了如下翻译,其原文可点击链接获取。
Silverton Consulting 的总裁 Ray Lucchesi 查看了 MLPerf 存储基准测试的初步结果,并建议 “每个计算节点的模拟加速器” 是比较供应商的有效方法。
上个月,我们研究了首期 MLPerf 存储基准测试,该测试检查了存储系统向模拟的 Nvidia V100 GPU 提供数据的效果 (测试原始数据查询,请访问MLPerf Storage基准测试官网) 。我们关注每个供应商系统的 MBps 值(每秒可传送1百万字节的数据量),发现供应商之间没有太大差异。DDN 建议我们应该重点关注在规定数量的控制器、SSD 数量以及需要多少电量的条件下,以指定的性能水平可以驱动多少个 GPU(即 MLPerf 术语中的加速器)。DDN 从单台 AI400X2(配备 2 个控制器)可以驱动 40 个 GPU,Weka 从 8 个节点驱动 20 个 GPU。Nutanix 每个系统指标的加速器数量一致,它可以驱动 5 节点的 Nutanix 集群(每个节点 13 个加速器)上的 65 个加速器。
Lucchesi 观察到:“他们的基准测试展示的是一个计算系统(带有 GPU)直接从存储系统读取数据。” 我们应该把模拟加速器的数量作为一个相对数量来比较供应商的系统,而不是所支持的 V100 GPU 的绝对数量,因为它是模拟加速器而不是真实的物理加速器。基准测试的一个约束条件是存储系统应使模拟V100 GPU保持 90% 的繁忙程度。
截至 10 月 8 日的 MLPerf 存储基准测试结果包含了多个计算列:每个计算节点的模拟加速器,以及采用两种类型的基准测试(图像分割和自然语言处理)得到的每个加速器的 MBps。并非所有供应商都提交了这两种类型测试的结果,并且在两个提交的结果中,没有提供模拟加速器的数量。
Lucchesi 检查了结果并注意到一个差异,例如 DDN 的结果之一是 160 个加速器,配备 64TB 闪存,列出了 16 个计算节点。而另一个结果是 40 个加速器,仅列出了1个计算节点,但拥有 259TB 闪存 —— 容量更大,但结果较低。这是违反直觉的。Lucchesi 认为 “计算节点的数量对于支持的模拟 GPU 产生了显著差异。”
在我们的 MLPerf 供应商数据表中(见上表),我们添加了 “每个计算节点上的模拟加速器” 一列,应用于图像分割基准测试中,然后绘制了结果图(如下):
每个供应商的结果(即 DDN、Weka、Micron、Nutanix 和 HPE)彼此之间有很好的区别。
Lucchesi 写道:“美光 SSD 使用 NVMe (PCIe Gen4) 接口,而其他两个存储系统分别使用 400 Gbps InfiniBand 和 100 Gbps 以太网。这告诉我们,接口速度虽然在某些时候可能很重要,但在确定模拟 V100 数量时并没有发挥重要作用。”
他提出了改进基准测试的方法,以促进供应商之间更好的比较:
• 应该提交不同类别的结果,一类仅适用于 1 个计算节点,另一类适用于任意数量的计算节点。
• 他会将模拟 GPU 配置升级到 A100 而不是 V100,比同类性能极高的 GPU 落后一代。
• 对计算节点有一个标准定义 —— 计算节点硬件/软件应在提交时锁定。
• 明确指定用于访问存储的协议。
• 更详细地描述存储配置,尤其是软件定义的存储系统。
上一页
上一页
相关新闻