HPC-人工智能重新定位高性能计算

发布时间:

2022-06-14 00:00

  

  高性能计算(HPC)曾经主要用于特定领域(特别是科学/工程计算领域),追求极快的计算速度。随着摩尔定律的放缓,人工智能(AI)技术崛起并不断融入到HPC之中,以及异构HPC系统的兴起,很多人开始琢磨HPC到底意味着什么,所谓的HPC身份危机也演变成一个有趣的话题。

  1什么是HPC?

  在刚刚结束的国际超级计算大会ISC2022上, 美国印第安纳大学人工智能计算系统实验室主任,智能系统工程教授Thomas Sterling 在他的主旨演讲中也谈到了HPC的身份危机问题,在他看来, HPC是一种强调计算的先进技术。那么高性能计算中的“性能” 指的是什么呢?是速度而不考虑吞吐量?还是获得结果的时间(time-to-solution)?可能很多人会同意 “获得结果的时间” ,但是似乎并没有公认的答案。

  另一个相关问题:AI是什么呢? 首先,Thomas Sterlings 教授认为人工智能是一个很糟糕的术语,尤其是“人工”二字很模糊,可能意味着“不真实”。或许 “机器智能(machine intelligence)” 是一个更恰当的术语。他预计到2040年,机器智能将消耗绝大多数的计算资源,而机器智能将来应该是指机器理解(machine understanding)。

  2 HPC与AI的交叉

  如果从实际发生的情况来看,AI作为一种增加价值的项目正在悄然进入计算的所有领域, AI和HPC存在着共生互惠关系。

  AI和高性能数据分析工作负载的增加推动着HPC系统设计的变化,以及计算资源建设和管理方式的转变。各种新技术为HPC系统设计提供了更多选择,比如新的加速器(包括专门用于AI的ASIC芯片),各种不同的内存、互连和存储解决方案等等。在系统建设方面, 有的计算中心搭建一台大规模异构系统来运行各种类型的应用,而有的计算中心则搭建多台小规模系统用于处理不同的工作负载,云资源也被越来越多地用于处理数据密集型工作负载。计算资源的分配管理更多的被看成是一个优化问题:如何在多样化的技术选项中找到平衡,如何优化关键工作负载。

  AI应用与传统HPC应用有很多交集。在HPC领域中,AI的应用越来越多,例如:独立的AI模型在HPC环境中运行;AI被纳入到传统的仿真工作负载中:传统的仿真工作负载通过代理模型得到极大的优化,数据准备及清洗可以借助AI技术,仿真参数可以借助AI模型进行微调等。一方面,建模与仿真工作负载从AI技术中受益,比如,获得结果的时间缩短,打开了解决方案新的探索领域,解析稀疏矩阵的数据。另一方面,AI也从建模与仿真工作负载受益:比如,生成的大规模合成数据可以用于训练模型,对训练好的模型可以采用仿真方法进行验证和测试。

  3市场展望

  市场研究机构Hyperion基于可测量的原则对HPC服务器和“HPC 赋能AI (HPC-Enabled AI)” 服务器的市场做出了预测。

  按照终端用户的应用情况,Hyperion将本地部署的HPC服务器(见下图)分成(1)数据密集型和(2)计算密集型。在数据密集型之下又再细分为(a)传统数据科学和 (b) HPC赋能AI, 其中 “HPC赋能AI” 这一类别指的是计算资源必须有50%以上用于AI或学习类的工作负载。

  

 

  图源:Hyperion Research 2022

  根据Hyperion统计, 2021年全球本地部署的HPC服务器市场规模达到了147亿美元,其中计算密集型服务器为108亿美元,数据密集型服务器为39亿美元,计算密集型服务器占据了73%的份额。在数据密集型服务器的细分市场中,主要用于“HPC赋能AI” 的服务器市场规模为13亿美元,主要用于传统数据科学的服务器市场规模为26亿美元。目前,用于传统数据科学的服务器市场规模是 “HPC赋能AI” 服务器市场的2倍。

  从发展趋势来看,Hyperion预测本地部署的HPC服务器市场将保持增长的态势,5年(2021-2026)复合年增长率(CAGR)将达到 6.9%。其中,特别值得关注的是 “HPC赋能AI” 细分市场的强劲增长势头,5年复合年增长率将达到22.7%, 远远高于其他类别服务器市场的增长率。到2026年,“HPC赋能AI” 服务器的市场规模也将超过传统数据科学的服务器市场。

  

 

  图源:Hyperion Research 2022

  无论是学术界关于HPC和AI的含义、关系和相互影响的思考, 还是市场数据都表明AI正在重新定位HPC。

相关新闻