[数直通DDN存储] 为什么存储基础设施的选择对数据密集型机构至关重要

发布时间:

2021-05-18 00:00

 

  

 

  使用人工智能(AI)、深度学习(DL)和机器学习(ML)让许多产业、政府和研究机构能够以前所未有的速度和准确性从他们的数据中获得洞见。但是,海量人工智能和深度学习数据必须进行处理、存储和分析,这也为各种机构带来了难题。随着工作负载的增长,数据中心基础设施必须快速和高效地扩展,以满足收集、摄取、处理和存储所有这些人工智能和深度学习数据的需求。

  构建正确的支持人工智能的环境 (包括计算、网络、应用和存储)需要有远见和规划,无论是采用内部部署、云还是混合基础设施。支持人工智能的数据中心需要智能的基础设施来提供灵活性、任何规模都能保持的高速度,以及数据洞见,以便成功地利用数据的价值。本文描述了为何需要一个集成的智能基础设施,优化的数据路径和支持人工智能的存储来应对这些挑战。

  1. 人工智能/深度学习数据中心集成带来的挑战

  2.

  根据市场研究公司451 Research1的调查数据,“管理和聚合大量数据的关键在于管理存储分层。63%的调查受访者希望提高存储效率。随着人工智能/机器学习工作负载的使用,存储层将在IT环境中发挥关键作用。”

  近期的一项分析调查表明,数据中心在集成人工智能方面面临着一系列挑战, 包括:

  · 现有的IT基础设施难以满足人工智能需求

  · 数据的规模和复杂性

  · 确保正确、准确数据的可用性

  · 对数据的访问有限

  · 部署和管理新的基础设施面临挑战

  人工智能解决方案与现有基础设施集成的复杂性

  许多传统的内部部署的数据中心基础设施都是为典型的业务应用工作负载而设计的,并不足以满足人工智能和深度学习的苛刻需求。这些数据中心的网络通常性能不高,使用粗略优化的文件系统,在中央处理单元(CPU)上进行计算,在硬盘驱动器(HDD)上进行存储。这种基础设施会导致计算通道堵塞以及输入/输出(I/O)瓶颈。

  数据中心现有的存储解决方案也可能面临限制。人工智能和深度学习在图形处理单元(GPU)上运行得较好,GPU比CPU更具扩展性,更快速。但是,如果没有正确的数据存储平台,由于应用程序等待存储响应致使GPU空闲, GPU就会成为瓶颈。强行在现有的数据中心基础设施中运行人工智能工作流会带来风险。

  使用人工智能云存储应考虑的问题

  当机构选择在哪里(内部部署自己的硬件、上云、或本地与云混合)运行支持人工智能的存储基础设施时,应该考虑哪些问题呢?当上云时,应考虑到以下挑战:

  · 云存储解决方案可能难以搭建

  · 管理和技术支持可能不存在,或缺乏完整性

  · 使用云的成本螺旋式上升相对于内部部署的固定成本

  · 数据密集型应用在云上部署可能遭遇性能瓶颈

  云存储的优势

  对于选择在云上(公有云、私有云或多云)托管存储系统的机构来说,当然有益处。机构通过访问云上基于GPU的并行计算引擎,可以处理人工智能和深度学习工作负荷,而无需长期的资金投入。谷歌、亚马逊和微软Azure等云服务供应商为数据科学提供了诱人的机会来运行概念验证、突发工作负载,甚至是内部部署的数据中心无法运行的生产级工作负载。云上运行的有效支持人工智能的存储解决方案需要易用的数据管理,该数据管理能让用户在熟悉的环境中快速在内部部署、云或公有云之间迁移数据密集型工作负载。DDN市场副总裁Kurt Kuckein表示:“如果在内部部署的数据中心上GPU利用率预估在50%以下,那么云部署就很有意义,我们有解决方案来帮助客户云部署。”但对于GPU利用率高并拥有大数据集的公司来说,在内部部署所获得的效率提升和成本节约可能会非常显著。

  数据量和复杂性带来的挑战

  人工智能和深度学习的数据量以及复杂性带来了挑战,因为现有的企业内部存储基础设施的架构并不适合处理人工智能数据类型的复杂性。传统的IT工作负载主要为业务运营提供服务,而业务运营通常涉及高度结构化的数据,或者由相对小的单个文件组成的数据。

  人工智能和深度学习的数据通常包括非结构化的数据,以及由大文件、小文件和元数据混合的数据。在机器学习/深度学习模型的训练阶段,经常需要随机访问大量小文件(这属于读取密集型I/O),而传统的存储基础设施并不适合于这种读取密集型I/O。人工智能数据生命周期的许多阶段都存在着低延迟、高并行、混合工作负载的需要,而传统的存储解决方案不是为这些需求而设计。支持人工智能的基础设施需要一个能够处理复杂数据流的存储系统,以便对人工智能数据进行分析。

  数据存储范围的挑战或质量问题

  一个存储系统在存储数据时不能扩展是一个重大的问题,这可能导致访问或数据质量问题。例如,在深度学习训练阶段,存储数据摄取需要从大规模分布式来源的大型并发数据流中快速摄取(写入数据)的能力。这种快速摄取数据的能力对于数据编目和组织非常重要。一个成功的人工智能程序可以在设计时从几个TB的数据开始,但必须能够轻松地提升到几个PB,而无需重建环境。

  数据可访问性问题

  传统的存储系统可能无法处理多种人工智能和深度学习协议,以及访问数据的不同方式,这就会导致数据可访问性问题。有效的支持人工智能的存储系统必须包括一个专门的并行客户端,这个客户端与GPU一起工作以确保工作流分析的性能。并行计算客户端确保了通往GPU的较为有效的路径。从传感器和数据源摄取数据需要对象存储接口。存储系统必须能够处理各种文件协议,如网络文件系统(NFS)、Hadoop分布式文件系统(HDFS)、可移植操作系统接口(Portable Operating System Interface,POSIX)、服务器信息块(SMB)协议或亚马逊网络服务(AWS)公司提供的亚马逊简单存储服务(S3)服务。

  难用或难部署的技术带来的挑战

  内部部署的数据中心在实施支持人工智能的存储时面临挑战,因为该解决方案可能维护困难并且耗时,还需要具备专业技能的工作人员。有效的存储系统需要步骤来简化规划、数据获取、部署和管理高性能存储。

  2. 满足支持人工智能的存储的需求

  正确选择支持人工智能的数据存储平台,并让其与数据中心基础设施中的计算和网络平台有效整合将有助于消除上述挑战。以下存储功能是消除人工智能瓶颈和真正缩短获得洞见时间的关键。

  l 可扩展性:存储基础设施在实施中具有灵活性和扩展性,能够有效地处理多种多样的数据大小和类型。

  l 高性能的并行:并行的架构将数据同时提供给在GPU上运行的所有进程,以消除数据处理的等待。

  l 高并发的随机流:采用共享存储系统作为公共文件库,可灵活地进行数据流动。

  l 并行文件系统:架构必须使用并行的文件系统,而基于NFS的文件存储系统遇到多个客户端使用时容易出现严重的流量争夺。

  l 安全性:存储系统必须提供高数据可用性、较大的系统正常运行时间,并被整合为一个完全冗余的系统。

  l 低延迟:网络必须优化,以较小的延迟(延时)来处理大量的数据信息。

  l 深度学习工作流:架构必须高并发、有效地处理深度学习工作流中涉及的活动,包括数据摄取、数据综合处理、训练、推理、验证和仿真。

  此外,一个有效的支持人工智能的存储解决方案能自动将数据存储在各种设备上,如元数据存储在超低延迟的非易失性存储器(NVMe)介质上,小文件存储在经济的固态硬盘(SSD)上,大文件存储在高带宽、低成本的硬盘(HDD)上。 DDN 提供优化的支持人工智能的存储,是为数据密集型全球机构服务的头等供应商。DDN 在人工智能、大数据、多云和高性能计算等领域具有重要的影响力。

  “客户对我们和我们的产品的长期信任让DDN成为全球头等的私营存储公司”,DDN联合创始人兼CEO Alex Bouzari表示。

  DDN支持人工智能的存储解决方案:

  A³I(Accelerated, Any-Scale AI)

  

 

  DDN在人工智能和深度学习各种领域的大规模数据系统中成功部署了其A³I并行存储解决方案。经过全面优化的DDN人工智能存储方案加速机器学习和人工智能应用,简化工作流,以实现更高的生产效率。

  DDN提供一整套人工智能和深度学习并行存储设备,这些设备适用于各种类型的IO模式和数据布局。DDN的共享并行架构使GPU数据完全饱和以满足高效的人工智能应用,从而让深度学习框 架在GPU上跑得更快、更好、更可靠。

  A³I解决方案可访问来源各异的大量数据,通过人工智能/深度学习训练、验证、推理和仿真快速迭代数据。DDN A³I可以无缝地扩展容量、性能和能力来匹配不断演进的工作流需求。存储配置可以从小规模开始,并可横向和纵向扩展以达到出色技术和经济效益。DDN为全球较大的深度学习项目提供了存储系统, 该存储容量超过200PB,IOPS达5千万,吞吐量达1.4TB/s。

  此外,经过优化设计的A³I 存储方案与NVIDIA DGX SuperPOD系统及新的NVIDIA DGX™ A100芯片匹配,为SuperPOD系统提供理想的性能加速。通过DDN与NVIDIA系统的紧密集成,A³I 解决方案能够提供理想的性能、容量和能力。A³I 每一层涉及数据传输及存储的硬件和软件都进行了优化,以保证快速响应,和可靠的数据访问。A³I 产品线下的存储系统如AI400X可以在几个小时内(而不是几周)完成部署,提供可扩展的性能,而且使用的复杂性和管理开销都极小。

  DDN存储云解决方案:EXAScaler® Cloud

  DDN设计并优化的存储方案支持机构从内部部署和云端(公有云、混合云或私有云)数据中产生价值并缩短获得洞见的时间。DDN的Exascaler Cloud解决方案提供多云数据管理,为完全集成的混合云方案(内部部署+第三方云服务)提供控制。

  DDN的Exascaler Cloud是数据密集型工作负载访问云存储的较快路径 - 只需点击几下就能创建文件系统,采用共享并行架构提供高吞吐、低延迟和高并发数据。DDN提供灵活多样的解决方案,既可以在内部数据中心运行,也提供在谷歌云平台(GCP),微软Azure,和亚马逊云服务(AWS)多云部署的选项。Exascaler Cloud使用DDN策略引擎(Stratagem)作为强大的数据编排引擎,让用户在不同的存储层(包括云)之间移动数据,确保存储的高效使用。“对于想使用混合云部署的用户,一个重要的考虑因素是如何让云环境尽可能地类似于其内部部署的基础设施”DDN市场副总裁Kurt Kuckein介绍。这样有助于工作负载的转移,而且不管存储和计算在什么位置,采用同样的工具会让终端用户的使用容易得多。”

  3. 总结:为人工智能优化的数据存储路径的优势

  人工智能和深度学习是商业和研究的基本工具,能让机构从他们的数据中获得宝贵的洞见然而, 处理和存储数据的复杂性需要优化的数据路径,以及能够处理这些工作负载(无论是运行在内部部署的数据中心,还是运行在云或混合基础设施上)的存储解决方案。支持人工智能的数据中心需要智能的基础设施来提供灵活性、任意规模的高速度和数据洞见以成功地利用数据的价值。

  DDN是世界头等存储系统供应商,能够满足人工智能和深度学习的存储需求。

  “我们刚开始理解数据密集型应用将如何变革商业和市场“Kurt Kuckein表示“让客户从他们的数据中快速获得较为准确的洞见将推动经营业绩的突破,并为用户未来的成功做好准备”

  参考资料

  访问DDN官网查看更多有关内部部署或云端人工智能解决方案

  1] 451 Research – Business Impact Brief: Automating Storage Tiers Can Drive Faster, Deeper Analytical Insight

  关于DDN

  DDN是世界头等的数据管理供应商, 为数据密集型全球机构提供解决方案。在快速变化的竞争格局中,确保人工智能项目迅速从调研进入生产变得非常重要。20多年来,DDN 专注于设计、部署和优化生产级的人工智能, 高性能计算和大数据解决方案。DDN赋能企业从内部部署和多云环境的数据中产生更多价值,并缩短获得洞见的时间。借助DDN的技术能力和专业知识,机构能够以高效、可靠和经济的方式来获取、存储、处理、分析、合作并分发信息及内容。DDN的客户包括众多世界优秀的金融服务公司、银行、医疗和生命科学机构、制造和能源公司、政府和研究机构,以及服务提供商,这些服务提供商用他们的数据开发许多方案,例如创新的疾病治疗方法,收入的新途径等。

相关新闻

暂无数据

暂无数据