高性能计算HPC存储-成功案例 | 日本宇宙航空研究开发机构新一代超算采用DDN存储

发布时间:

2021-05-25 00:00

 

  DDN公司于6月30日发布了基于Lustre的新版商业并行文件系统EXAScaler 6(简称EXA6),这个新的版本增加了赋能人工智能和方便企业应用的特征。同时发布的还有大规模系统监测和管理工具软件Insight 4.0。这两款产品都计划于今年三季度上市。

  

 

  EXA6 改进效率和易用性

  EXAScaler是AI、数据分析和高性能计算(HPC)领域中强大的并行文件系统,EXA6延续了EXAScaler的领导地位,是更强的安全性、丰富的数据服务和端到端数据管理的基础。新版本运行在新的管理框架EXAScaler Management Framework (EMF)上,并具有可用于配置和管理的应用程序接口(APIs)。因其很高的自动化程度(比其他文件系统高10倍),EXA6极大地简化了管理和升级系统, 其新特征包括:

  • 支持新的NVIDIA Magnum IO™ GPUDirect® Storage (GDS)

  • 在线升级

  • 增强自动分层能力

  • Hot Nodes支持客户端持久缓存

  尤其值得一提的是新增的加速技术Hot Nodes。深度学习模型通常需要多次重读数据集,这种多阶段的学习过程给计算、网络和存储都带来很重的负载。Hot Nodes可以自动地将数据缓存在NVIDIA GPU 系统的本地NVMe上,由于避免了网络的来回通信,因而减少了IO延迟和流量。DDN与NVIDIA合作开发的Hot Nodes新特征自动地将深度学习数据拷贝到GPU本地存储上,释放出来的基础设施可服务于其他的工作负载如摄取、标记、归档等。具备新的Hot Nodes能力的EXA6增强了计算、网络和存储中数据路径的端到端效率,提高了任意规模AI系统的性能标杆。

  

 

  

 

  Insight4.0提供更有深度的可见性

  Insight 4.0监测IO资源和工作负载,为客户带来有深度的可见性和对整个数据路径细粒度的控制,从而减少发现问题的时间。Insight 4.0不仅提供必要的存储监测信息如CPU的内存消耗或硬盘消耗,它还提供对系统及运行情况更深层的视角,具备一系列数据智能,包括

  • 单独的作业查看

  • IO指标

  • 工作负载分析

  • GPU使用情况

  • 各种各样的作业查看及轻量级分析

  Insight 4.0能让管理员快速地解决工作负载和基础设施中的问题,并提高服务水平。过去,管理员往往是接到内部用户打来的电话或发来的邮件才知道文件系统出现了问题。而DDN将文件系统与调度系统集成到Insight系统中,这是一种从存储的角度来查看作业的方法。采用这种新颖的方法,在存储环境中,我们能看到哪些作业正在运行并分别使用了多少IO。我们还能从屏幕上看到作业按照吞吐量或IOPS或元数据的方式排序,这样管理员能立刻看到哪些作业正在使用文件系统的资源。

相关新闻

暂无数据

暂无数据