[人工智能存储] 企业通往AI之路
发布时间:
2022-11-08 00:00
通常,企业要实施AI项目会从POC开始,如果POC成功,他们则会进入生产阶段。企业往往会使用他们知道和喜欢的存储,即那种传统企业存储,比如NAS就是服务于更标准的IT工作负载的。但是,当企业开始大规模地运行AI时,就会开始发现问题。
大规模实施AI的困难和挑战
这里的“大规模”是指真正使用了大型文件格式非结构化数据,比如视频、实时图像分析、音频和自然语言处理等。这些AI应用通常需要数PB或数十PB甚至数百PB的数据。在性能方面,要把数据传输到AI机器以及端到端AI工作流的其他地方,也具有挑战性,特别是对于那些使用NFS协议的存储。因为通常NFS协议不可能交付应用所要求的恰当性能。在这方面,DDN的做法有点不一样。
采用AI的企业希望数据科学家通过大量的创新来创造更多成功的机会。然而,数据科学家作为AI基础设施的终端用户却容易抱怨他们的作业跑得慢。当一个用户抱怨存储“慢”时,虽然问题通常被说成这样,但并不一定是因为存储慢。真正的原因通常在于应用与存储之间的数据路径不够强大。基于NFS协议的存储适合于标准的IT工作负载,但并不适合于这些情形:当你想尽量快速地传输大量数据到AI框架中时,或者检查点应用。数据移动依赖于网络和软件、AI框架和协议。像NFS通常并不是设计用于这种大规模数据移动的。
另一个问题是间歇性故障,可能是网络故障,也可能是存储故障,或者是小停电或大停电,或者只是服务水平没有完全满足需求。此时,客户就需要专业技能来帮助他们克服种种挑战。应当指出的重点是:大规模情形下发生的事情不同于标准企业IT环境中发生的事情。这可以归结为两个原因:一方面因为规模更大,性能更高,设备和网络端口的数量多,发生硬件故障就更常见。另一个更微妙的原因是:当压力总是存在时,数据跨越基础设施,跨越很多套系统,传输到应用程序时,往往比没有压力的情况下更容易遇到不常见或极端案例。然而,企业存储却不可能提供这种大规模能力。DDN的存储系统是专为处理特别困难的大规模AI压力而设计的,可以处理高压力数据和那些不常见或极端案例。
打破数据孤岛
大家很早就意识到了数据孤岛的问题。由于孤岛的存在,不同小组之间不能互相访问数据。随着AI项目的实施,企业逐渐意识到:只要他们能够访问公司更大量的有价值的数据,AI就有可能对业务产生极大的影响。因此,打破孤岛就成为关键。企业可以采用单一的带有逻辑界限的物理系统,它特别安全,企业还可以根据业务需求移动逻辑界限。
要打破孤岛主要需要两样东西,其一是扩展性,DDN可以通过我们的并行文件系统提供扩展性,比如我们有些自动驾驶客户差不多有1EB的存储,这个规模接近一些全球特别大的存储系统;其二需要拥有鲁棒的方法来管理安全性, 当不同的小组分享同样的物理存储层时,企业希望可以相对轻松地移动界限,允许存储系统上不同的租户非常安全的访问。
最终结果
为了大规模运行AI, 企业在基础设施和GPU、理解和实施AI系统 、起初的数据收集、以及打造团队,特别是数据科学家团队方面的投资都特别大。然而,如果企业一开始采用了错误的数据平台,即使企业做对了其他的选择,结果也可能得到一个有风险的劣质项目,这是因为企业存储平台不能处理大规模AI的性能需求和扩展需求,特别是那些可能成功的程序的需求。
更多详情,欢迎观看DDN产品高级副总裁James Coomer在今年秋季 GTC22 大会上的演讲视频回放。
#DDN存储 #数直通DDN存储 #人工智能存储 #AI存储 #HPC存储 #高性能存储 #高性能计算HPC #数据管理
了解更多关于企业AI存储:https://www.ddnstorage.com.cn/product_exa.html
【往期推荐】
相关新闻
暂无数据