ChatGPT-NLP 和 AI: 数据存储在推动生成式 AI 工具中的作用

发布时间:

2023-02-13 11:00

很少有技术现象像新一批生成式 AI 工具(如Dall-E和ChatGPT)那样迅速流行起来。似乎一夜之间,这些引人入胜的新应用正被各种各样的人用于不同的应用 – 从内容原创到邮件和报告撰写、软件开发、内容研究等等。

 

特别是ChatGPT,由于其令人印象深刻的语言理解水平,已被证明特别适用于许多情形。它能够从特别简单的输入中综合内容甚至知识,这赋予了它奇特的能力。当然,实际上是对大量数据集进行复杂的数学运算使 ChatGPT 生成输出,但结果还是很了不起的。

 

 

ChatGPT以及其背后的算法是一个被称为自然语言处理(NLP)的AI研究领域中的一部分。NLP的目标是创造能够理解上下文,以及单词、短语、句子甚至完整段落含义的工具。凭借这种能力,经过适当训练的AI模型采用NLP原理能够响应常见的基于语言的请求(以文本或语音的形式),给出令人信服的、精心组织的、以及(希望是)准确的回复。更重要的是,它能够在庞大的信息基础上构建其答复,从理论上讲,尽可能多地融入知识。

 

为了实现以上目标,支持这些能力的机器学习算法首先必须输入大量的文件和其他信息源(网站、书籍、报告等)进行训练。从计算和系统的角度来看,这是一项艰巨的任务,因为它需要大量的人工智能数据存储,大量的计算引擎,以及所有部件之间快速、效率高地连接。

 

在基础操作层面,训练过程需要分析各种文件,将它们分解为部件,发现不同元素的共有模式,并且开发数据模型来遵循这些模式。此外,因为模型是以迭代方式创建的,当有更多数据时,或当我们想为一种专业词汇(比如科研或金融)开发语言模型时,它们需要能够学习和扩展模型。

 

为了构建知识并理解细微差别和含义,大语言模型(如支撑ChatGPT的模型)需要多次从存储中读取源数据集到内存之中。训练过程可能会花费数周或数月的时间,需调试数十亿个参数以优化模型。为了避免在漫长的训练过程中因故障而从头开始,特别关键的一步是需要在此过程中保存参数的检查点。

 

实际上, AI训练中的此类数据处理工作负载对存储系统(和计算引擎)提出了非常具体的要求。首先,你需要巨大的存储容量 – 通常以PB为单位- 来处理所有的信息。其次,你需要能够非常高速地读取源数据集,并且尽快地写入参数检查点。随着每个阶段加载和存储数十亿个参数,你承受不起 I/O 链路上的拥塞,而且你希望确保数据路径的任一方向都没有瓶颈。

 

具体来说,这意味着你需要超快的并行存储系统来匹配高速多轨网络和庞大的计算阵列。高速固态硬盘(SSD)是这类应用必不可少的。SSD也可以与传统硬盘(HDD)相结合,当前,SSD/HDD 混闪可以提供超高的容量和每比特特别便宜的价格,但是新的SSD技术正不断变得更有竞争力。

 

DDN把各种能力整合到存储系统中并专门设计了高性能闪存,并且针对这些AI工作负载进行了优化。DDN提供的SSD/HDD混闪系统包括了Hot Pools概念,可以避免“分层”数据存储的低效率,并在SSD和HDD之间透明地移动数据。DDN特别把智能存储控制器和并行文件系统技术集成到产品中,这使得它们特别适合AI这些类型的工作。

 

模型训练对于NLP应用很重要,然而,训练只是故事的一半,另一半涉及推理。推理是指经过训练的模型能够对一个输入/某人键入的请求作出反应,然后产生一个输出。毫不奇怪,推理工作负载的要求和系统需求与训练工作负载是不同的。对于推理,更注重的是AI存储系统的读取性能,因为它需要调用具有数十亿参数的模型来做出上佳响应。此外,因为这些模型的工作方式,多个并行计算需要同时访问同一组数据,这意味着要获得上佳性能,你需要一个提供并行数据交付路径的存储系统,DDN在其AI存储系统中专门设计了这一并行传输特性。

 

像ChatGPT这类以NLP为中心的工具的能力已经揭示了AI算法和软件在过去几年中取得了多大的进展。实际上,它们正是科幻作家 Arthur C. Clarke那句名言 “任何足够先进的技术都与魔法难以区分” 的很好例证。不过,在这些魔法背后实际上是大量的计算,智能软件和移动的数据。要将各个部分组合在一起发挥上佳性能并不容易,但是通过为任务适当设计的正确工具,现在显然是可以实现的了。

 

了解更多关于人工智能存储:https://www.ddnstorage.com.cn/Scheme_details/1034053404681027584.html

相关新闻