高性能计算HPC存储-大阪大学新超算系统“SQUID”采用DDN公司存储方案

发布时间:

2021-01-31 00:00

 

  日本大阪大学网络媒体中心近期宣布:该中心将安装与日本电气公司(NEC)合作开发的新超级计算机系统,用于高性能计算(HPC)和高性能数据分析(HPDA)。新的超算系统名为SQUID(Supercomputer for Quest for Unsolved Interdisciplinary Datascience),将取代该中心现有的NEC超算系统,并计划于2021年5月开始运行。

  SQUID系统由1520个通用CPU节点,42 个GPU节点和36个向量节点组成。每个CPU节点包括一个英特尔第三代至强可扩展处理器Ice Lake(冰湖),该处理器以深度学习提高技术为特色;每个GPU节点都配有8块NVIDIA A100 Tensor Core GPU,能够加速人工智能、数据分析、高性能计算、可视化等工作负载;每个向量节点都配有8个NEC SX-Aurora TSUBASA单元,能够更快、效率更高地模拟天气、地震、水力和其他现象。这套混合架构的超级计算机理论峰值性能超过16 petaflops,配备集中的存储系统。该存储系统由DDN公司的存储设备与EXAScaler高性能并行文件系统组成,提供20PB的大容量数据存储和1.2 PB的高速数据存储。

  

 

  NVIDIA Mellanox HDR InfiniBand网络提供了高速、低延迟和智能的节点间连接。SQUID系统的通用CPU节点将成为日本配备冰湖处理器的大规模计算资源。更值得一提的是SQUID超级计算机不仅提供计算资源和数据存储,而且具有量身定制的功能,研究人员可以进行动态部署和使用他们所选择的软件栈。此外,为了方便用户使用、改善用户体验,还增加了下列新服务:

  1. 数据聚合基础设施

  新的SQUID超级计算机配备集中的存储系统,即DDN公司的存储设备加EXAScaler高性能并行文件系统,可提供20 PB的大数据存储和1.2 PB的高速数据存储。DDN公司的 EXAScaler设备与Cloudian公司基于HyperStore的对象存储相结合形成了大阪大学的下一代数据聚合基础设施ONION(Osaka University Next-generation Infrastructure for Open research and innovation ,ONION)。ONION支持各种各样的数据访问协议,极大地提高了数据使用的灵活性。通过ONION促进了研究机构之间的数据共享与云服务,计算前后的数据可在用户之间进行顺畅、灵活共享。

  2. 安全计算环境

  新的SQUID超级计算机提供一个安全的计算环境,让用户可以放心地使用机密数据。该计算环境提供的安全staging功能是NEC公司和大阪大学网络媒体中心合作研发的成果。存放在校园存储中的高度机密数据可以直接在SQUID系统的计算节点上进行计算和分析,无需将数据从存储中迁移出来。该安全计算环境还提供了一个安全分区功能,可以灵活地将某个用户组从网络中分开并隔离,从而提供防止其他用户看到其数据和计算。直到今天,由于存在数据安全方面的顾虑,医疗领域和企业使用大规模公共计算资源仍然比较有限。利用SQUID这种安全的计算环境,可以灵活地准备一个隔离环境,从而开展以前无法支持的一些领域中的研发工作。

  3. 云爆发功能

  新的SQUID超级计算机还提供了云爆发(cloud bursting)功能,从而可以按需使用甲骨文Cloud Infrastructure云服务和微软Azure云服务。过去,大阪大学网络媒体中心存在着本地计算资源利用率高和作业等待时间长的问题。将部分计算过程切换到私有云服务上,可以满足不断增长的资源需求,同时提供与本地计算环境相同的功能。云服务上的资源不断更新也使新计算资源具有灵活性。

  SQUID旨在支持日本学术界和工业界的研究人员面对尚未解决的跨学科数据科学挑战。大阪大学网络媒体中心将与NEC、Intel、NVIDIA、DDN、Cloudian、甲骨文日本和微软日本等公司合作,共同构建新的超级计算系统,通过云连接的方式进行高性能计算和高性能数据分析。SQUID超级计算机将满足HPDA领域的各种计算需求,如机器学习和深度学习,以及HPC领域的数值计算和科学模拟。SQUID将支持来自不同领域的研究人员,并为开创性的未来研究分析和发现做出贡献。

相关新闻

暂无数据

暂无数据