[HPC存储] 为什么高性能计算中存储的重要性提高了?
发布时间:
2021-10-08 00:00
过去的高性能计算(HPC)主要是运行传统的建模/仿真工作负载,而建模/仿真工作负载大都是计算密集型应用驱动的,所以传统HPC主要的关注点在于:如何让计算线程更快,让更多的计算线程并行,以及减少花在服务器之外的时间。因此,服务器的内存越来越大,并且尽可能地减少访问网络和存储的时间。对于传统HPC来说,芯片的时钟频率、核数以及每秒浮点运算次数(FLOPS)是主要的考虑因素。尽管如此,传统的建模/仿真对于存储也提出了两方面的需求:首先是容量,要能够存储不断增长的仿真所需数据以及仿真结果。其次是写带宽性能,要为检查点快速地保存长时间运行的仿真状态,以防止灾难性系统崩溃而中断作业。
然而,随着技术的进步(如新型介质的出现),工作负载类型的多样化(如新型HPC也包括高性能数据分析和人工智能 AI),以及业务模式(如云的使用)的改变,高性能计算中存储的重要性不断提高。推动高性能计算中存储地位改变的重要因素包括,经济的固态存储介质的出现,无论是传统HPC中心还是企业IT数据中心都需要运行数据密集型AI工作负载,在云端运行生产级HPC工作负载正在增加,按需使用的业务模式已经变得切实可行。
1存储介质
过去,HPC中的大规模存储往往部署在磁性介质上,如磁盘(HDD)和磁带, 前者用于保存工作数据和本地数据,后者用于保存归档数据。磁盘和磁带的机械属性让这类存储天然存在延迟和性能瓶颈。经济的固态硬盘(早期以高性能闪存形式)的出现改变了存储的困境,计算节点可以更快地把更多数据移进和移出服务器,大大减少了要求严苛的仿真应用的完成时间。存储分层的概念也因此出现,热存储用于经常访问的数据(包括元数据和仿真数据),冷存储用于不经常访问的数据,归档用于长期保存数据。
2 数据密集型AI工作负载
数据密集型AI工作负载
AI的价值很大程度上取决于AI模型的准确度和精度,而AI模型的准确度和精度又很大程度上取决于输入模型的数据质量和数量。创建和更新模型的速度以及推理的速度都取决于如何将数据快速地提供给系统进行建模和推理。采用GPU来实施基于AI的解决方案很快暴露了传统高性能计算机面临的存储性能挑战:因为要等待数据从存储系统读出或写入,昂贵的计算节点处于空闲或利用不足的状态。解决存储带来的挑战成为提高AI应用性能的关键,也因此提高了HPC/AI生态系统中存储的价值和重要性。
另外,这些挑战也为存储创新提供了机会。目前的存储的创新正在多个方面进行,例如文件系统、互连、分层软件、存储级内存支持存内计算(in-memory computing)等。存储的创新让传统的企业IT数据中心可以运行数据密集型的AI和高性能数据分析工作负载,同时也增强了传统建模/仿真应用的性能。
3云端运行生产级HPC
市场研究表明,很多用户已将大约20% AI相关的工作负载运行在云端。不管云端运行的工作负载的量或种类,基于云的业务流程,以及对混合云、多云和云原生HPC工作负载的工作流管理都对HPC存储产生了直接的影响。对于HPC存储和云模式,用户和HPC数据中心的管理人员都需考虑一系列的问题,比如,将存储放置在何处? 什么时候应该迁移数据或者根本不迁移数据?成本问题,安全性或数据局部性(data locality)问题,只是需要云存储还是同样也需要云计算?
4按需使用的业务模式
在用户本地部署的基础设施上,类似于云服务的按需使用模式也变得可行。无论是基于容量的模式,还是基于服务质量(可靠性、可用性、性能)的模式,都需要存储系统内提供工具和管理手段来适当地监测并报告运行情况和系统性能。
展望未来,哪些新的存储相关技术有可能在五年以后甚至更短的时间内对HPC存储产生影响呢?目前来看,与存储相关的研究和投资主要在两大方向进行:高性能驱动和容量驱动。
在追求高性能方面,固态介质(例如,存储级内存,磁性随机存储器MRAM,电阻式随机存取存储器ReRAM)和相关存内计算的持续发展将大大提高受延迟影响的工作负载的应用性能,让这类应用可以把数据集全部地放置在内存。对于受延迟影响的应用,存储IO满足POSIX(Portable Operating System Interface)规范也是关注的方向。自从多线程应用出现以来,通常要求支持POSIX规范以防止一个应用与另一个应用相互冲突和数据覆盖。但随着某些系统变得更加专用,或者对系统的特定使用变得更加可控,满足POSIX规范的某些要求或许可以适当放松以减少系统数据IO延迟并提高整个系统应用的性能。
在追求更大容量方面,针对不断增长的活跃归档市场,有关于文件系统优化的研究。针对数据长期保持的需求,也有一些研究评估新型存储介质(如合成DNA)相对于磁性介质在成本、可靠性、持久性和寿命方面的可行性。
相关新闻
暂无数据