AI存储-映射生成式AI应用的数据生命周期

发布时间:

2023-07-19 11:00

随着人们对生成式AI有关的事物越来越着迷,对构建、管理和运行Transformer AI模型所需工具的关注度也不断增加。虽然起初大部分注意力都集中在训练模型所用的GPU服务器上,随着实践摸索,人们也逐步认识到:先进的数据存储和管理工具对模型训练的成功与否至关重要。一个明显却经常被忽视的因素是:支持新型AI应用需要快速访问大量数据,其量级远超以前的 AI 应用所需。

 

AI业务工作流和数据管理的关键转变

1. 运行生成式AI所需的工作流要求极高,并给网络和系统带来了巨大的压力。

2. 生成式AI被各种各样的组织使用,而做模型的组织通常不是超级计算方面的专家,所以系统必须简化并降低风险。

OpenAI的ChatGPT和谷歌的LaMDA的核心都是大语言模型(LLMs),支持MidJourney和Dall-E的都是图像数据库,为了构建类似的LLM或者图像数据库 , 公司需要编制PB级的数据集,对该数据进行分析,开始构建模型将包含的参数,多次重新分析这些结果以强化模型输出的质量,并将生成的算法保存为训练好的生成式AI模型。

 

构建大语言模型的挑战:

1. 收集用于训练的参考数据集

2. 选择上佳的transformer模型

3. 在数据集上进行模型训练

4. 多次迭代以微调模型参数

5. 保存为训练好的生成式AI模型

 

训练完成之后,实时数据必须在模型上运行,通过推理产生新的输出。在此过程中,还需要一个流程来归档输入数据、模型产生的输出数据,以及与该推理工作关联的其他相关元数据。归根结底,这是一组冗长、复杂的与数据相关的工作。为了确保上佳性能并尽可能减少延迟,需要周密的规划和强大的工具来管理和互连此数据生命周期的各个方面。

 

步骤一:规划

起初,公司可能试图在各种步骤中使用孤岛式的不同的存储设备和流程。这部分是因为:很少(如果有的话)现有的企业级存储系统是设计来处理这种级别的吞吐量的。然而,处理这些任务的特别有效的方法是仔细规划,在规划中考虑到 :1)每个步骤的具体需求和要求,2)针对这些复杂类型的工作负载优化过的快速、强大的存储解决方案。适当的规划可以帮助公司避免繁琐而耗时的任务,即为了完成任务而将数据从一个孤岛拷贝到另一个孤岛。此外,通过规划还可以在整个项目中实现更好的数据一致性。

 

步骤二:数据准备,模型训练

在高层次上,必须考虑模型的训练过程和推理过程需要什么。从训练方面来看,这不仅是将数据采集到内存然后保存到磁盘的简单过程。准备把原始数据摄取到模型框架可能涉及多个步骤,包括格式化、过滤、标记、数据验证等,其中大多数步骤都需要快速、交互式地访问数据集。一旦学习过程开始,建议在模型开始构建定义其操作的参数时,对模型进行定期备份或保存检查点。作为强化学习过程的一部分,选定的数据集需要重新运行模型,以便它创建进一步的优化,这是对存储系统的额外要求。

 

步骤三:推理和生产

一旦创建了模型,流程会转向推理,推理更注重操作性。在此,准备运行一个24/7的数据分析工作负载,其中新的输入数据在模型中运行,进而产生新的输出。为了确保模型尽可能有效地发挥作用,在一开始摄取数据进入模型前对原始数据进行过滤和准备的方法应当与后续处理任何输入数据的方法保持一致。然后,出于多种原因,对进入模型的输入以及产生的输出进行数据归档。首先,对输入和输出数据集的持续分析可以为模型提供持续的反馈和改进。此外,头部企业需要提前考虑其模型可能有审计和合规性要求。为了完成这些类型的任务,审计数据追踪是非常必要的。

 

步骤四:生成式AI的数据管理策略

总的来说,这些步骤需要一个架构完善的数据策略和数据流管道,以确保AI训练和推理平稳、无延迟地运行。此外,每个步骤(和子步骤)具有不同的性能要求,因此单一的解决方案通常不起作用。相反,公司需要考虑这些不同的需求并拼凑出一个系统,该系统可以根据需求而在各个步骤中伸缩。另外,考虑未来对这些系统的需求也很重要,例如,记录与可解释性相关的决策点,以便为将来审计需要此类信息做好准备。

 

构建一个为生成式AI需要的各种因素(从训练AI模型到基于它进行推理)做好准备的AI存储系统并非易事,再加上需要规划其他可能的未来需求,任务会变得更加艰巨。通过精心地规划各个步骤以及它们要求的性能规格,搞清楚所有这些元素如何协同工作,那才有可能创建一个可靠的解决方案。

 

更重要的是,公司需要摒弃这样的想法,即几个独立的系统可以拼凑在一起来完成不同的步骤。虽然这种想法乍一看似乎更容易,但生成式AI工作负载高度迭代、高度互连,并且不断演变的本质使其真正需要单一的解决方案,该方案能够将AI数据生命周期的不同阶段联系起来。此外,不同步骤对规模、容量和吞吐量的需求远远超出了大多数现有企业级存储解决方案的能力,因为现有的企业级解决方案在设计时并没有考虑过这类需求。正如生活中的大多数事情一样,必须找到合适的工具才能有效且效率很高地完成工作。

相关新闻