[AI存储] 通过数据优先存储架构激活您的企业AI策略
发布时间:
2023-07-26 11:00
随着人们对ChatGPT等生成式AI应用的兴趣和关注的激增,对于企业IT部门来说,是否将更多基于AI的能力集成到组织之中已经不再是一个问题,而是如何集成以及何时集成。更重要的是,一个组织如何调用其数据,以及应该如何发展真正的差异化?
每个组织都有大量未充分利用的数据(包括结构化和非结构化数据),它们具有潜在的价值。从这些数据中可以提取什么洞见来提升其核心业务?哪些信息可以与合作伙伴共享?我们已经知道如何利用那些未开发的数据,采用人工智能/机器学习来推动更智能的决策并加快创新。但是,还有一些问题我们需要解决:即如何以一种富有成效的、有用和安全的方式做到这一点。支持AI应用或AI模型必需的所有硬件基础设施都应当根据AI工作负载的具体要求进行优化。
公司还需考虑推动其AI相关的数据策略的关键原则。首先,AI模型和各种应用需要访问海量的数据。尽管有的公司可能起初认为基于云的方式会带来更大的灵活性,然而许多公司却开始意识到将大量的数据移入或移出云所涉及的成本高得难以承受。因此,一个明显的发展趋势是:公司把关键数据集保存在本地用于延迟敏感型的AI应用以避免数据移动的费用。这需要在公司的数据中心内或主机托管的场所中配备强大的存储系统。同时,一个组织的数据需求可能随着其手上的项目多少而上升或下降,因此,许多公司被弹性或云存储所提供的敏捷性所吸引。
从企业数据湖仓一体到AI主力
谈到存储架构,许多组织已经开始认识到数据湖仓一体作为常规企业应用的存储的重要性和价值。从本质上来看,数据湖仓一体可存储结构化数据(数据表、交易数据等)以及不断增长的半结构化和非结构化数据(文档、邮件、音频、视频等)。更重要的是,数据湖仓一体增加了对半结构化和非结构化数据查询功能(类似传统数据仓库风格),这让湖仓一体对AI管线中的数据转换、数据标注和数据准备阶段特别有用。
基于AI的工作负载(无论是更传统的基于机器学习的数据分析,还是与构建或调优基础模型相关的新训练和推理工作负载),决定如何以及在何处部署AI数据传输管线的灵活性变得更加明显。
能从企业湖仓中提取出的运营数据种类和体量的增加使其成为AI训练数据的强大来源。对于正在构建自己的基础模型或对现有模型进行额外训练的公司来说,尤其如此。
即使在非生成式AI应用中使用传统机器学习风格的数据分析,这种灵活性和可扩展性也可以对由数据生成的算法的有效性产生重要影响。
从更智能的决策到生成式AI
得益于生成式AI在一般生产力和面向行业的解决方案方面所取得的惊人进步,毫无疑问,对商业中AI应用的关注将会增长。一个更令人兴奋的新领域是组织能够定制现有基础模型并将其作为私有的内部工具。许多公司认为这个概念很吸引人,因为他们能够利用构建这些模型的大量工作,但规避了潜在的数据泄漏/知识产权丢失问题。
一些公司还开始考虑利用Hugging Face等公司的开源AI模型和数据集,这为那些想要利用AI应用却不想重新发明大语言模型的通用功能的公司提供了另一种选择。
无论公司选择哪种方式,未来1-2年内,似乎无数AI驱动的新工作负载将在全球很多公司中运行。新的transformer模型驱动的生成式AI工具已经对技术行业产生了惊人的影响,全球其他行业的公司也开始意识到它们的潜在影响。
采用数据优先的AI策略
对于那些考虑如何更好地利用他们未开发的数据的公司,更重要的一步是发现能够调用的数据来源。一个现有的数据湖仓是理想的数据来源,可在其中添加数据标签以构建训练和验证数据集,准备好迁移到高性能共享平台以便数据工程师用于构建、训练和测试AI模型。
展望未来,我们将越来越多地看到弹性分布式存储系统,这些存储系统将弥合当今数据湖仓一体技术的差距,在高吞吐量深度学习所需的规模提供AI学习所需的性能。
为了准备好这些工作,公司显然必须考虑他们将来需要的计算需求,但同样重要的是数据存储工具和AI数据管理所需的策略。这一切将走向何方尚不完全清楚,肯定还会有一些重要的障碍需要克服,但企业计算的未来已经很久没有令人如此激动了。
相关新闻