高性能存储-通过创新的数据管理提高数据中心效率

发布时间:

2023-09-06 11:00

DDN首席技术官 Sven Oehme 先生近期在福布斯杂志(Forbes)发表了一篇题为《数据管理创新在数据中心效率中的作用》的文章。他在文中深入探讨了现代数据管理解决方案对于提升效率、减少数据中心能耗和电子废物的重要性。这是一个非常重要的话题,我们很高兴DDN的专家能够分享他的见解。以下为该文的翻译,原文请点击链接查看。

 

数据管理创新在数据中心效率中的作用

如今,企业 IT 主管的工作比以往任何时候都更具挑战性。他们必须管理不断增长的数据,并依靠较小的团队利用不断发展的技术。他们的任务是将 IT 从成本中心转变为能够产生竞争优势的战略投资。

随着当今迫在眉睫的全球气候危机,对环境更加负责的压力也变得越来越大,这要通过提高数据中心效率、减少能源消耗和电子废物来实现。

 

我们当前的处境

据估计,全球 8,000 多个数据中心每年运行所需的电力占地球总发电量的 3%。尽管服务器和存储技术在处理和管理大量数据方面已经变得效率很高,但数据增长速度超过了这些进步,这助推了数据处理能力对能源的额外需求。

如今,数据中心大约 55% 的能源被用于为服务器和存储等硬件系统供电,而超过 40% 的能源用于冷却这些和其他硬件资源。随着人工智能(AI)驱动的数据处理和深度学习变得更加普遍,对能源的需求预计将加速。

数字化和数据货币化程度的提高与生成式AI相结合,正在推动数据量和服务需求的新一轮爆炸式增长。这将显着增加对计算、存储和网络资源的需求,并进一步加剧了降低能耗的挑战。

因此,IT 管理人员必须优先考虑数据管理效率 —— 使用尽可能少的能源来快速、安全地处理、存储和移动数据,同时不影响可扩展性或性能。事实上,这是推动尚未开发的数据中心效率的关键。

 

将讨论拓展到容量和密度之外,转向性能

数据中心管理者长期以来一直将占地面积视为提升效率和降低成本的关键因素。鉴于数据的爆炸式增长,通过提高容量利用率(无论是基于虚拟机的整合、高密度磁盘、重复数据删除还是压缩)来降低能耗是合乎逻辑的想法。

但性能的作用又如何呢?虽然 IT 组织可能已经考虑到更快的 CPU、内存和磁盘在增加能耗方面的作用,但他们可能没有考虑现代数据管理解决方案在加速计算以降低能耗方面所发挥的作用。

事实上,加速计算的新发展包括领域专用架构,其中包括用于并行处理的 GPU、用于超快速网络的数据处理单元 (DPU) 以及基于并行文件系统的存储。这些架构对于AI工作负载来说比现有的企业基础设施更加有效率。以下是需要考虑的几个因素:

 

效率

性能不足会降低效率。数据等待时间长、不必要的数据移动和高延迟会消耗能源并减慢工作流。现代数据管理系统利用并行处理和数据路径来加速计算并优化应用程序的性能。并行计算对存储系统提出了一些独特的要求,特别是以适当的速度并行向 GPU 提供大量数据的能力。这可以提高创建和运行AI模型的效率。

 

能效

专为加速计算而设计的服务器和存储架构可提供更高的能效和线性横向扩展性能,从而大大减少数据中心部署的系统数量。

对AI来说GPU 的能效可提高 42 倍,而并行文件系统每瓦驱动的数据量可提高 10 倍,两者相结合,只需传统技术的一小部分能耗和机架空间即可提供出色的结果。

 

电子垃圾

电子垃圾 (e-waste) 是发展得相当快的环境问题之一,占全球城市固体垃圾的 5% 以上。随着世界的连接越来越电子化,这个占比数字肯定还会增长。与此同时,全球回收率低迷至 17% 左右。随着越来越多的电子设备的生产,每个设备都有自己的碳足迹,以及空气、土壤和地下水污染,这对气候变化的影响可能是灾难性的。

向软件驱动、硬件加速架构的转变可以实现未来的技术增强,而无需硬件升级。这是延长技术寿命而不产生不必要浪费的重要一步。

 

数据管理的全貌

我们正处于众所周知的十字路口,数据中心效率既有恶化的可能,也有提高的机会。全球几乎每个组织的数据都将继续快速增长。

我们还进入了 AI 的新时代,它依赖大语言模型 (LLM) 来提高 NLP 准确性(并驱动 ChatGPT 等复杂工具)。这些新的AI模型将包括训练、分析和推理,使用多达数万亿个参数,这给服务器和其他基础设施带来了更大的负担。

 

组织可以采取哪些措施来保持当先地位?

专注于效率很高的数据管理和快速性能,包括 IO 吞吐量。能够优化 GPU 并行处理的存储解决方案对于加速AI、数据分析、仿真和可视化的计算将变得更加重要。正确的存储可以提高 GPU 性能和资源利用率,这将对数据中心的可持续性产生积极影响。更高的性能还可以实现每瓦特更多的运算,从而可以将能效提高 3.5 倍,并将 AI 数据中心总拥有成本(TCO) 降低 3 倍以上

利用智能监控工具(例如,可扫描数据中心的数据中心基础设施管理 )不仅可以查明过度的用电量,还可以确定哪些地方的电量未得到充分利用。大多数数据中心资源严重过度配置,平均服务器利用率低得惊人,只有 12% 到 18%。可以整合或重新部署 Ghost 服务器,以减少浪费的处理能力并提高整体性能和效率。

然后,您可能会担心AI工作负载加速计算在数据中心产生的热量。请注意,包括 Equinix 和 Meta 在内的多家知名组织已开始在约27摄氏度或更高温度下运行其数据中心,大约比行业平均水平高出 10 度。您可以研究一下是否可以将数据中心温度提高几度以大幅节省冷却成本。同时,探索一些冷却技术如蒸发冷却、储热器和可能的室外空气等来冷却数据中心而不损害环境。

相关新闻