视界:新NCAR-WYOMING超级计算机将加速科学探索

目录

声明

本文正文内容翻译自 UCAR 官方网站在 2021 年 1 月 27 日发布的由 DAVID HOSANSKY 撰写的文章《NEW NCAR-WYOMING SUPERCOMPUTER TO ACCELERATE SCIENTIFIC DISCOVERY》,版权归原作者所有。 翻译底稿来自 Google 翻译。

正文

在 NCAR-Wyoming 超算中心进行的可变分辨率气候模拟显示了一场登陆飓风。 科学家们可以使用功能强大的超级计算机来运行诸如 NCAR-based Community Earth System Model 之类的模型,以研究气候变化对大规模天气事件的影响。 要查看此可视化产品以及在超算上运行的模拟创建的其它可视化产品,请访问 visgallery.ucar.edu。

The National Center for Atmospheric Research (NCAR) 今天宣布,在竞争激烈的开放采购程序之后,已选择其下一代超级计算机来推进地球系统科学。 新机器将帮助科学家进行必要的研究,以更好地理解影响社会的一系列现象,从主要的森林大火到可能威胁 GPS 和其他敏感技术的太阳风暴爆发。

该创新系统将由惠普 (Hewlett Packard Enterprise, HPE) 制造,并于今年在怀俄明州 Cheyenne 市的 NCAR-Wyoming 超算中心 (NWSC) 安装。 该系统将于 2022 年初 投入运营,并将取代现有的系统 (称为 Cheyenne)。

NCAR 面向怀俄明州的学生举行全州竞赛,为新系统起名。

HPE-Cray EX 超级计算机将是一个 19.87 petaflops 的系统,这意味着它将具有理论上每秒执行 19.87 千万亿次计算的能力。 这几乎是 Cheyenne 超算进行科学计算速度的 3.5 倍,相当于地球上每个男人,女人和孩子每秒求解一个方程持续一个月的速度。 一旦运行,由 HPE 驱动的系统预计将跻身全球最快的超级计算机前 25 名左右之列。

译者注:派-曙光业务子系统在最新的 2020 年 11 月 TOP 500 排名中位列第 143 位。

NCAR’s Computational and Information Systems Laboratory 主任 Anke Kamrath 说: “新系统是超算能力的一大进步,它为科学界提供了最先进的技术,以更好地理解地球系统。 将会形成对从极端天气,太阳风暴到气候变化等潜在威胁的新见解,有助于增进对改进预测所需要的知识,从而增强社会对潜在灾难的抵御能力。”

该系统将花费 3500 到 4000 万美元,经费来自美国国家科学基金会 (National Science Foundation, NSF)。 NWSC 由 NSF 和怀俄明州通过拨款给怀俄明大学提供资金。

自 NWSC 于 2012 年开放以来,来自全国和海外超过 575 所大学和其他机构的 4000 多名用户使用了其资源。 去年,NWSC 加入了 COVID-19 高性能计算联盟,以加速对新型冠状病毒的了解。

由 HPE 提供的系统将成为国内外研究气候变化,极端天气,水文循环,磁暴,地震,空气质量,森林大火以及其他将对社会带来广泛影响的重要地球系统过程的关键工具。

“对于怀俄明州,NCAR 升级的时机和性质再好不过。 怀俄明大学的研究人员将充分利用新系统,以更好地了解受到大气和地下流动影响的基础和经济利益领域。” 怀俄明大学研究与经济发展部副校长 Ed Synakowski 说: “此次升级体现了计算技术的巨大进步,以及有效运用其结果的极大潜力。 我们期待与 NCAR 和美国国家科学基金会合作,利用这种增强的能力来推动基础科学的发展,而基础科学决定了许多具有潜在重大经济和社会重要性的问题。”

速度更快,效率更高

新系统最具创新性的功能之一是将加速计算与 NVIDIA A100 Tensor Core 图形处理单元 (graphics processing units, GPUs) 结合使用。 超算将通过 GPU 获得 20% 的持续计算能力,其余部分将来自传统的中央处理器 (central processing units, CPU)。

在地球系统研究中,GPU 提供了超过 CPU 的显著优势。 它们比 CPU 更强大,具有更高的能源效率,每瓦特能源的性能 (通过浮点运算衡量) 高达 CPU 的六倍。 应用 GPU 计算还将使 NWSC 最终用于 E 级计算 (exascale computing),这比当今最先进的系统快许多倍。

GPU 计算对于新发展的人工智能和机器学习技术也更有效,因为它们在一个加速器上同时执行大量计算,从而在相同数量的并行操作下降低功耗并减少硬件需求。 GPU 的板载内存比 CPU 少,但就内存和内核数量而言,NWSC-3 中使用的 GPU 都是一流的。 与以往相比,这将使研究人员可以加载更多数据并训练更大的机器学习模型。

由于具有 GPU 和其他节能功能,因此尽管速度快了近 3.5 倍,新 NWSC 系统的耗电量仅比 Cheyenne 高 40%,而 Cheyenne 本身的效率就已经很高。

它可以应用于高度灵活和可扩展的商业云计算服务,从而提供对按需高性能计算系统和特殊要求所必需的计算和存储资源的访问。

该系统将拥有 60 PB 的高性能存储,几乎是 Cheyenne 的两倍。 它将采用 HPE Slingshot,这是专为高性能系统开发的专用网络解决方案,可满足对数据密集型工作负载的更高速度和拥塞控制的需求。

“新的超级计算机具有额外的存储空间,并且比目前的 NCAR 超算 Cheyenne 提高了 3.5 倍,将为我们的科学家提供必要的资源,以继续扩展他们在大气和地理空间科学方面的研究,” NWSC-3 项目主任和高性能计算部门主任 Irfan Elahi 表示: “为了提供这种功能,新的超级计算机旨在实现高能效运行。”

更完整的地球系统图景

高性能计算机使研究人员能够运行越来越精细的模型,以模拟复杂的过程以及它们将来如何发展。 科学家还可以利用增加的计算能力来运行多个模拟,从而提供更完整的地球系统图景。 这种集合预报模式使他们能够量化给定事件的可能结果范围或不确定性。

集合预报特别有助于为资源管理者和策略专家提供有价值的信息,以便提前进行计划和减轻风险。

新系统有望加速研究的一些领域包括:

极端天气。 对雷暴,龙卷风和飓风等天气灾害进行更现实的模拟,将使科学家们能够对所涉及的过程获得新的见解,改进用于天气预报的模型,并更好地表示灾害及其在不断变化的气候中的影响。

气候变化。 该系统增强的能力对于 NCAR 旗舰全球气候模型 (Community Earth System Model) 下一版的开发至关重要,该模型将允许对全球和区域气候变化进行更详细且与社会相关的预测。

可用水量和洪水。 对水流和主要气候模式的详细模拟将导致对季节性供水,干旱风险和洪水的预测越来越切合实际,从而为水管理人员,农民和其他决策者提供重要信息。

森林大火。 增强的计算能力将使科学家能够改善物理过程的表示,例如局地风,土壤湿度和植被格局,为森林火灾风险和行为的更可靠,概率性预报奠定基础。

次季节到年代际预测。 新系统将促进对大气,海洋,海冰和陆地上广泛现象的研究,这些现象可以在几周到十年的时间内被预测出来,从而帮助社会预测诸如热浪,降水模式变化,或改变渔业状况。

空气质量。 科学家们将获得有关大气状况反馈以及空气污染物的复杂运动和演变的新见解,以各种方式为决策者提供有关特定地点的人类暴露的更多信息, 帮助更好地保护人类健康,并提供更准确预测空气质量所需的知识。

可再生能源。 通过运行高分辨率特殊集合预报模式,科学家可以帮助公用事业提前几天估算风电场和主要太阳能电池板可能产生的能量,从而降低能源生产成本。

地下流动。 更精确和详细的模型将使研究人员能够更好地模拟水,石油和天然气的地下流动,从而加深对这些资源的了解。

太阳风暴。 对太阳的湍流等离子体流和磁场进行越来越详细的三维模拟,将有助于改进对强烈太阳风暴的预测,这些太阳风暴会破坏地球的大气层并引发太空天气事件,从而威胁通信系统和电网。

NCAR 主任 Everette Joseph 说:“更强大的超级计算机是我们国家研究基础设施的重要组成部分,它使科学家能够推进基础研究并加深我们对地球系统复杂和相互联系的本质的理解。 新的 NWSC 系统将支持基础研究,从而对我们周围的世界做出更详细,更有用的预测,帮助我们的社会更抵御日益严峻的灾难,并为改善人类健康和福祉做出贡献。 它还使 NCAR 能够在其新的社会实用地球系统科学战略计划中实现优先任务。”

太阳耀斑的模拟,然后进行日冕物质抛射。这种在超级计算机上运行的模拟可以帮助科学家更好地了解太阳风暴,它可以破坏地球的大气层,并对科技产生广泛影响。(图片:Matthias Rempel,©UCAR)

配置速览

新 NWSC 系统的主要功能

  • 由 HPE Cray EX 超级计算机提供的 19.87 petaflops,为支持下一代超级计算设计,包括 exascale 系统
  • 总共 2570 个计算节点:2488 个同构计算和 82 个异构 (CPU) 节点
    • 同构节点有 2 个第三代 AMD EPYC CPU
    • 异构 (GPU) 节点有 1 个第三代 AMD EPYC CPU 和 4 个 NVIDIA 1.41 GHz A100 Tensor Core GPU,包括 40GiB HBM2 内存和 600 GB/s NVIDIA NVLink GPU 互连
  • 总内存为 692 TB
  • Dragonfly topology 中的 HPE Slingshot (v11) 高速互连
  • 同构计算节点配备一个 Slingshot 注入端口,GPU 节点每个节点配备 4 个 Slingshot 注入端口
  • HPE Slingshot 带宽为每个方向每个端口 200 Gb/s
  • HPE Slingshot MPI 延迟为 1.7-2.6 微秒
  • 8 个登录节点,每个登录节点均有 512 GB DDR4-3200 内存
    • 六个节点,配备 2 个 AMD EPYC 7742 CPU
    • 两个节点,配备 2 个 AMD EPYC 7742 CPU 和 2 个 NVIDIA V100 GPU

软件环境

  • HPE Cray 操作系统 (OS),SUSE Linux 的调优版本
  • 带 PBS Professional Workload Manager 的 Altair Accelerator Plus 调度器
  • 支持 Docker 容器,Singularity 容器和支持开放容器倡议标准的容器
  • HPE Cray 编程环境,支持 OpenMP 4.5 和 5.0 以及 MPI v3.1
  • HPE Cray 编程环境的性能分析和优化工具,可提高应用程序的性能
  • NVIDIA HPC SDK,用于加速平台的一组全面的编译器,库和工具
  • 英特尔 Parallel Studio XE 编译器套件
  • HPE 的 Cray Clusterstor E1000 存储系统 (基于2.12 LTS)

新的 NWSC-3 超级计算机和现有的 NWSC GLADE 文件系统得到了新的并行文件系统和数据存储组件的补充。

新数据存储系统的主要功能

  • HPE 的六个 Cray ClusterStor E1000 存储系统
  • 60 PB 的可用文件系统空间 (可通过额外选项扩展到 120 PB)
  • 往返 NWSC-3 系统的每秒 300 GB 的总计 I/O 带宽
  • 5088×16 TB 驱动器
  • 40TB SSD 用于 Lustre 文件系统元数据
  • 在高可用性存储对中配置的两个元数据管理单元 (metadata management units, MDU) 导出四个 MDT (每个 MDS 导出一个 MDT)
  • HPE 的 Cray Clusterstor E1000 存储文件系统

AMD,AMD Arrow 徽标,EPYC 及其组合是 Advanced Micro Devices,Inc. 的商标。

讨论

进入二十一世纪的第二个十年,各大气象中心都在更新自己的超算系统。

ECMWF 已于去年安装新的超算,并将于今年正式启用,详情参看去年笔者翻译的一篇报道

视界:HPC 2020 - ECMWF 新高性能计算机

Met Office 也将于 2022 年启用新的高性能计算机,详情查看如下新闻报道

Up to £1.2billion for weather and climate supercomputer

而本文也介绍了 NCAR 将于 2022 年启用的新一代 HPC。

从本篇报道和之前翻译的 ECMWF HPC 2020 报道可以看到新一代 HPC 都有一些共同的趋势,而笔者主要关注以下两点:

容器技术

下一代 HPC 普遍支持 Docker、Sigularity 等容器技术,为科学计算工作流的可复现提供更强大的工具。

笔者预计容器技术可以有效解决研发试验与业务运行环境不一致的问题,也将极大提高业务系统的可移植性。 即使不应用在模式积分等 MPI 任务中,也可以在资料前处理、模式后处理等前后端任务中使用容器来提供更易使用的封装形式。

GPU 节点

下一代 HPC 普遍将 GPU 作为必备组件。 尽管 CMA-PI 上已有 GPU 节点,但从 2018 年至今,NWPC 依然没有进行 GPU 方面的研究,也没有相关的成果进入业务系统中。 不过 NMIC 从 2018 年以来持续研发数值预报模式系统在异构平台上并行计算技术,面向 GPU 逐步移植气候和气象模式中的各个模块。 如下面两篇文章:

  • 顾文静,孙晨,王彬.基于OpenACC的高性能计算并行优化研究与应用[J].计算机技术与发展,2018,28(04):65-70. DOI:10.3969/j.issn.1673-629X.2018.04.014。
  • 肖洒, 魏敏, 邓帅, 等, 2019. 基于GPU-OpenACC的气候模式加速优化研究. 气象, 45(7): 1001-1008. DOI: 10.7519/j.issn.1000-0526.2019.07.010.

最近几年,机器学习已在气象领域得到广泛的发展,GPU 节点也更适合进行机器学习模型的训练与应用。

由此可见,选择合适的路线很重要,提早布局就能在第一时间抓住机会。 在这一点上,我还只能扮演抬头仰望诸位大牛的角色。

参考

报道原文:

NEW NCAR-WYOMING SUPERCOMPUTER TO ACCELERATE SCIENTIFIC DISCOVERY

去年翻译的一篇报道:

视界:HPC 2020 - ECMWF 新高性能计算机