人工智能AI-AI基础设施常见的5个挑战

发布时间:

2021-06-22 00:00

  

  

 

  如果您所在的机构已经尽力规划好了一个AI战略,但实施起来却总感觉有些不太对劲,比如您的AI应用程序即使运行正常,您却感到仅仅是”正常运行“还并不能满足您的全部需求,这是因为您对AI的期望值不知不觉中提高了。实际上,很多机构都可能遭遇了类似的AI实施经历。

  根据2020年Gartner对商业和IT领军者的调查报告,75%的受访者表示,他们将在疫情后陆续启动或继续开展AI工作,但只有21%的公司已经在生产中使用了AI。换句话说,尽管原则上很支持AI,但少有组织能够将AI付诸实践。

  Gartner

  “21%的公司已经在生产中使用了AI。75%的企业将在疫情后启动或继续AI工作。”

  

 

  问题是,为什么这么多公司实施AI进展缓慢?别人的哪些失误您可以规避呢?实际上,有好几种失误,有的涉及规划,有的涉及技术,还有的与企业文化有关。以下是企业在AI实施过程中遇到的五个常见挑战。

  AI基础设施的5个关键挑战

  1 AI项目进入生产所花时间过长

  2 系统因数据量大而不堪重负

  3 系统未针对AI进行优化

  4 AI系统难以扩展到生产规模

  5 影子 AI项目是令人头疼的事

  

  挑战1:AI项目进入生产所花时间过长

  当每个机构准备利用AI时,几乎都经过深思熟虑。AI项目也通常不会交给初级IT人员,而是交给机构里出色的人。

  然而,挑战在于,专业的AI工作负载难以大规模集成和优化。在现有的企业存储基础设施上部署AI工作流看似为一种合理的做法,但这也往往是头一个错误做法。随着越来越多的用户使用AI系统,问题也随之出现, 应用程序运行缓慢。也许你增加了存储容量,作业仍然运行缓慢,然后会出现断断续续的故障,网络、存储、应用等问题,不胜枚举。

  因此,您用于规划的时间不断增加,而项目已经错过了截止期限。好在有行业专家可以帮助您将需求和期望对齐。如果您采用正确的技能应对挑战,就可以制定成功的AI战略。

  挑战2 :系统因数据量大而不堪重负

  AI需要输入大量的数据,包括视频、图像、语言处理等。这些数据将用于建立早期的深度学习模型,然后这些模型将应用到生产中。而且,AI也通过强化学习模型和MLOps技术不断演进。

  面对数据量的激增,系统可能会变慢,应用程序可能得不到足够的数据,投资AI的回报率也会相应降低。然而,还有重要的一点需要指出,解决这个问题并不是简单地增加吞吐量,或提高计算速度,或更多的存储。

  AI应用程序和工作流有特别的要求,需要一个专门的、经过优化的基础设施才能满足,才能更好地实现商业价值。

  当AI系统无法提供足够的数据吞吐量时,很多机构有时会试图减少学习的数据量,或降低AI模型的精度和准确性,而这样做会让AI系统的洞察深度受到影响。这就像期待一个没有努力学习的大学生在考试中取得好成绩一样。

  那么,您该如何构建一个基础设施来满足AI工作负载的需求,并有效地管理AI应用程序所需的数据呢?

  答案是采用数据优先战略,从一开始就考虑系统的数据需求,换句话说,在项目的设计阶段就要考虑数据需求。同时还需要考虑数据隐私、数据权限和知识产权的问题。

  只有在考虑了所有需求之后,您才能基于参考架构设计出针对AI优化的基础设施,所谓参考架构就是实现了更优的计算、存储和网络需求,并能从投资中获得更大的商业价值。

  

 

  挑战3:系统没有针对AI进行优化

  无论构建什么计算环境都会面临特殊的挑战,但AI工作负载尤其具有挑战性,因其对性能的要求更高。

  构建快速数据访问和低延迟的小型系统比较容易,但是,配备大规模并行GPU的AI系统需要持续高带宽数据吞吐量,支持这种数据吞吐量则更困难。

  然而,在生产规模级别,AI和深度学习架构会将需求上升到更高水平:需要处理大量的小文件,需要管理庞大的PB级数据集来进行机器学习、实时处理和归档。难怪传统的企业存储系统无法处理企业级AI所需的数据。

  即使使用新的固态存储盘和高性能网络,传统的企业存储的性能也要打折扣。AI应用程序急需数据,而企业存储的架构决定了其无法效率很高地为AI系统提供数据。

  挑战4 :AI系统难以扩展到生产规模

  如果实施AI还不够棘手,当您转入生产阶段,即使成功的AI实施也可能变得苦乐参半。

  突然间,瓶颈可能出现,而您却无法确定什么导致了瓶颈。结果整个系统开始变慢,应用程序无法运行,推理工作负载无法处理,时间进度开始跟不上。遗憾的是,只有当AI系统开始承载来自真实世界、生产级别的工作负载时,这些瓶颈才会显现。

  大规模规划需要端到端的系统设计,以及简化的数据工作流。

  AI环境越复杂,扩展出问题的可能性越大。把您的AI基础设施想象成可以盖到无限高的办公楼,如果地基未优化也不牢固,办公楼的高度必然受限。

  为了应对扩展性挑战,使用AI参考架构来辅助你进行设计和容量规划。从一开始,扩展性就应成为AI环境设计中的关键点。除了系统本身,规划与系统运营相关的事项 (如备份和恢复)也很重要。再次强调,当您的环境针对当前和未来的AI工作负载进行了优化,每个人都能从中获益,而规划者是英雄。

  挑战5:令人头疼的影子AI项目

  遗憾的是,上述任意一个挑战(实施、数据管理、优化平台和可扩展性)导致的不良后果都可能促使企业内部的其他团队去单独实施自己的AI战略。

  这种“另起炉灶”会导致同一个企业内出现多个AI项目。而这个机构可能原本打算从一个AI项目开始,却突然变出了好几个AI项目。

  “自己动手”的思维在其他业务领域可能值得称赞,但涉及AI项目时,这种思维却可能很花钱。整个企业要么重复购买了多余的AI工具,要么为实施和支持多个系统而投入额外的工作时间。在这种情况下,公司就失去了规模效益和标准化的好处。

  正如 影子IT 对企业有害一样,影子 AI也是如此。

  在现实中,大多数企业只需要一个针对AI优化的基础设施战略。防止多种方式并存的根本方法是建立可扩展的、集中式的AI基础设施或卓越中心。如果一个企业的首笔AI投资获得了恰当设计和构建,其他团队就不会想要创建自己的AI项目,而可以利用早期的设施来满足每个人不断增长的需求和计划。

  那么,如何才能取得AI成功?敬请关注下期“人工智能成功指南”

相关新闻

暂无数据

暂无数据