数直通DDN存储-为什么存储是数据密集型工作负载的关键?

发布时间:

2021-03-02 00:00

 

  几年以前,一般企业还不太关注那些数据密集型工作负载,以及效率高地运行这些工作负载的基础设施。随着企业拥有的数据量急剧增长,这种情况已经发生了快速变化。理解和利用这些数据所采用的工具,如先进数据分析和人工智能,与高性能计算工作负载有很多共同点。

  新兴的人工智能和分析应用主要的特征是它们涉及很大的数据集。由于数据太大,一台计算机无法轻松地处理。现实的解决方案是将多台计算机连接成一个集群,让它们并行地处理问题。此外,基于GPU的计算系统的广泛使用也使数据分析进一步并行化以获得更大的加速。

  即使拥有强大的计算能力,所涉及的数据集却常因太大而无法一次性全部放入内存。在许多应用中,计算节点必须连续地由存储子系统提供数据,并定期将结果写回存储。这意味着,在为数据密集型工作负载提供所需的高性能时,存储子系统起着至关重要的作用,这种作用远远超过存储子系统在其他应用(如传统企业工作负载)中所起的作用。

  

 

  为什么新工作负载需要不同的存储

  传统上,企业存储采用共享网络存储,如文件服务器或专用网络存储(NAS)设备。对于非结构化数据,文件系统是更好的选择,因为可以更方便地搜索数据。虽然现有的文件服务器或NAS系统可以满足传统的企业工作负载需求,但却无法满足处理大规模数据集的需求。

  数据密集型工作负载通常需要并行文件系统。并行文件系统将数据分布在许多存储节点上,理想情况下,每个计算节点与每个存储节点可以直接通信,这使得许多读写可以同时进行。

  另一个不同之处在于使用混合存储。由于闪存的低延迟优势,企业存储已经逐步开始使用基于闪存,固态硬盘(SSD)的存储阵列。数据密集型工作负载同样受益于闪存的低延迟性,但因所涉及的数据集太大,使用全闪存的成本通常很高。因此,典型做法是使用混合存储:使用机械硬盘来获得大存储容量,同时使用少量闪存来快速读取数据,以及缓存数据待稍后写入硬盘层。

  复杂性可导致成本增加

  在许多情况下,管理存储的复杂性是一项挑战,特别是读写访问模式因不同的数据密集型工作负载而有所不同时,这就意味着基础设施可能需要调整才能为企业所运行的每种应用提供出色的性能。

  市场分析公司Hyperion Research进行的一项研究发现,运营存储基础设施为严苛的工作负载服务所面临的较大挑战包括:招聘和培训具有适当技能的存储专家,以及调试和优化所花费的时间和成本。这一研究结果突显了对有效监控和管理工具的需求,监控和管理工具使管理员能够了解其存储设施正在发生的情况,并及时处理可能导致设备宕机的问题。

  DDN大规模存储

  DDN在处理数据密集型工作负载方面有着悠久的历史,已经构建了一系列产品组合并服务于各行各业的客户,包括金融服务公司、制造、学术研究机构、能源公司、生命科学和医疗健康等。

  DDN的EXAScaler是基于广泛使用的Lustre并行文件系统而开发的商业并行文件系统。自2018年以来,DDN一直是Lustre系统的主要开发者和维护者。EXAScaler专为高性能和高扩展而设计,可用于全闪存,以及结合SSD和机械硬盘的混合存储。

  DDN A³I产品线旨在为AI和深度学习工作负载提供所需存储性能。A³I简单、可扩展的模块化设计使性能或容量扩展变得简单,适合企业部署。A³I存储与NVIDIA的GPU系统,如DGX A100系统,相结合的解决方案已经过大量测试和验证。

  Recursion Pharmaceuticals,一家位于盐湖城的初创公司选择部署了DDN的存储产品。该公司使用AI和机器学习来加速新药发现,需要优化存储基础设施来加速AI应用,并消除关键工作负载的瓶颈。通过与DDN工程师的合作,该公司采用内置EXAScaler文件系统的ES400NV和ES7990X存储设备(容量2PB)进行了验证性测试,另外还部署了一个全闪存层作为文件系统的前端。测试结果显示:DDN存储无缝地支持了18个计算节点和136个GPU加速器进行AI处理,闪存层使文件访问时间减少了40%,并使所有GPU达到很高的利用率。

  在为要求严苛的工作负载构建可扩展的数据管理和存储平台方面,DDN拥有丰富的经验,有能力帮助企业处理类似的挑战,比如将数据密集型技术(如机器学习和先进数据分析)集成到企业工作流程中,助力企业保持竞争优势。

相关新闻

暂无数据

暂无数据