人工智能模型-合成数据对未来AI模型训练的影响

发布时间:

2022-08-11 00:00

 

  在训练人工智能(AI)模型时,企业往往会遇到没有足够的数据、数据成本高昂,或采集的数据涉及隐私或公平问题等挑战。合成数据(synthetic data)为训练符合道德标准、高质量的 AI 模型提供了另一种机会。

  合成数据是指通过计算机程序生成的人工数据。根据MIT计算机科学与人工智能实验室(CSAIL)前研究科学家Ali Jahanian的解释:“合成数据的基本想法就是用一种算法(类似模拟器或生成式模型)来产生某种形式的数据,其目标是让这些合成数据和真实数据一样逼真。” 合成数据的想法并不是什么新东西,在过去几年中,合成数据的使用快速增长,其潜能也日益显现。现在,一批技术初创公司和大学都可以提供合成数据的服务并用于多种应用场景,如自动驾驶,医疗,隐私保护,保险和金融。

  合成数据节约成本,消除隐私担忧

  与真实世界数据相比,合成数据具有很大优势。从基础层面来看,合成数据的收集和维护比真实数据便宜,真实世界的数据集有可能需要花费数百万美元。

  另一个考虑的角度来自于训练AI模型时的隐私保护和公平性。基于真实数据进行AI模型训练往往遇到数据隐私、偏见和公平性方面的挑战,但使用合成数据进行训练,这些问题基本都可以消除。例如,通过增加肤色较深的面孔的合成数据,不仅可以使人脸识别模型的准确度提高,还会生成更符合道德标准的模型。医疗行业中患者数据通常包括个人健康信息。合成数据因为它不涉及真人的信息,可以减轻对这类隐私问题的担忧。另外,有的项目所需要的真实世界数据可能根本就没有,或者能获得的数据质量低下。例如,自动驾驶场景下,极端天气或路况下获取真实数据可能存在困难或危险,因此真实数据很少甚至没有。

  Jahanian认为可以把产生合成数据的生成式模型当作获取真实数据的接口,这意味着你可以把真实数据用某种方式转变为你得不到的数据。例如,Jahanian和他在CSAIL的团队就将白天的场景转变为夜晚的场景,把休眠的火山转变为活火山。这些转变的例子说明,在无法获取真实数据的情况下,你可以从一个生成式模型中免费获得你没有的数据。

  Jahanian和他的团队在研究中把使用合成数据与使用真实数据得到的结果进行比较,他们发现有些结果很类似,有些使用合成数据的结果甚至好于使用真实数据的结果。

  合成数据的使用将持续增长

  在不远的将来,合成数据有可能消除使用真实世界数据的需求,IT咨询公司 Gartner 在 2021 年 7月 的一篇文章中预计:“到 2024 年,用于AI开发和分析项目的 60% 的数据都将是合成产生的。到 2030 年,用于 AI 模型的合成数据将超过真实数据。” Jahanian 也同意 Gartner 的预测,他说: ” 我相信合成数据会创造平行世界,但平行世界的实现可能需要几年的时间。不过,当前我们已经可以看到使用合成语言或图像生成的例子,比如 OpenAI 的 GPT-3 模型和 DALL·E 图像生成器。GPT-3 和 DALL·E 都很接近人类的能力,在某些特别的案例中,它们甚至超过了人类的能力。“

  总之,在当今的商业领域中,数据就是一切。然而,采集数据可能相当耗时且成本高昂,合成数据提供了一种经济划算且有效的解决方案。在很多情况下,合成数据是一种比采集真实数据更好的选择。除了用于训练 AI 模型,合成数据还可以用于测试新产品和验证模型。

相关新闻