视界:将ECMWF新的高性能计算基础设施投入业务运行

目录

Taking ECMWF’s new high-performance computing facility into operation

9 May 2022

https://www.ecmwf.int/en/about/media-centre/news/2022/taking-ecmwfs-new-high-performance-computing-facility-operation

原文发表于 ECMWF 官网新闻《Taking ECMWF’s new high-performance computing facility into operation》,介绍 ECMWF 计算部副主任 Christine Kitchen 在 ECMWF 新一代 HPC 方面的相关工作。

以下正文章节是对该文章的节选翻译,并根据笔者个人理解有所修改,如有偏差敬请谅解。

正文

位于意大利博洛尼亚的新高性能计算设施 (High performance computing facility, HPCF) 由 4 个 Atos BullSequana XH2000 综合体组成,将替换 ECMWF 在英国雷丁由两台 Cray XC40 集群构成的现有系统。 新 HPC 服务将提供相对于当前系统大约 5 倍的性能提升。

位于意大利 Bologna 的 ECWMF 新数据中心的 Atos HPCF

测试新 HPCF

Christine 加入 ECMWF 时,大部分新 HPCF 已经安装在博洛尼亚。 她现在需要完成将超级计算机投入运行的最后阶段。

她说:“我遇到了与我以前角色类似的挑战,需要集成许多组件来提供服务,但规模更大,另外还要考虑天气预报的时间关键依赖性 (time-critical dependencies)。”

博洛尼亚的四个超级计算综合体代号为 AA、AB、AC 和 AD。

  • AA: ECMWF 已经在使用,预报和科研分析团队已获准提前迁移和验证工作流和 (数据) 管道。
  • AB/AD: Atos 在 ECMWF 执行功能和业务准备测试之前完成配置和最终系统调试。用于消除系统中的任何小问题并发现任何故障,希望为我们的用户提供稳定和高性能的服务。

运行测试包括两个部分:

  • 功能测试:包括一套基准代码和工作流,代表将在 HPC 上的运行的预报系统。必须证明性能可重复性,并在指定的时间范围内完成。

    参考 ecmwf/kronos 项目

  • 运行可靠性测试:30 天,验证 HPC 满足支撑每天预报交付时间表承诺所需的预期可用性和可靠性指标。

四个 Atos 超级计算综合体连接到四个路由器和两个独立的存储网络。在 Atos 交付给 ECMWF 之前,其中三个复合体正处于最终配置验证阶段。

业务运行之路

业务准备期:持续三个月的最后阶段将展示服务的“业务准备情况”,在此期间 ECMWF 工作人员对新设施进行生产前验证检查。

业务准备期确保我们的分析师和操作员能够获得管理系统所需的经验,并且确保基础设施展示运行生产服务所需的稳定性水平。 准备期还让 ECMWF 成员国能够在从当前的 Cray HPCF 进行全面服务过渡之前执行任何迁移活动。

新 Atos 统生成的测试数据将分发给外部用户,以确保与工作流的兼容性,并提供支持以确保实现平稳的服务过渡。

Christine 说:“在开始运行预报之前,我们必须证明该系统是可靠、稳健和高效的, 最终目标是提供我们成员国期望从这项投资中获得的服务质量。 这将为生成时间紧迫的预报带来一致性和可靠性,并提供一个平台来支持未来发布周期增加的集合分辨率。 在接下来的 12 个月里,我们仍然可以与 Atos 进行一些微调,以继续优化系统的性能,尽管这必须小心管理以确保我们不会中断服务。”

业务运行:新 HPCF 的业务使用预计将于秋季开始。

下一次预报系统模式升级将在 2023 年进行,集合预报的水平分辨率从 18 公里提高到 9 公里。 正是由于新 HPCF 提供的计算能力增强,分辨率的这一阶跃变化才将成为可能。

算力分配:新设施拥有超过 1,000,000 个内核,25% 的超算能力专用于成员国,其中高达 10% 的超算能力保留用于特殊项目。 这将大大增加这些活动的资源。 除了标准计算核心之外,其中一个复合体还具有 GPIL (general purpose and interactive login) 节点,其中包括支持应用程序开发的一些 NVIDIA GPU。

Atos BullSequana XH2000 AMD 计算刀片,具有三个节点。

其他工作领域

除了新 HPCF 工作外,Christine 还参与其他几个领域。 其中包括区域气象数据通信网络 (Regional Meteorological Data Communication Network, RMDCN) 的未来发展和考虑长期数据存储策略。

“短期内需要将数据处理系统 (Data Handling System, DHS) 迁移到意大利,但也有关于未来十年愿景的问题需要解决,” 她说。 “我在这份工作中还是新人,所以在这一点上,我正在研究如何可以真正增加价值并支持团队,逐步增强部门内的行动并确定优先级,帮助人们解决他们面临的问题。”

讨论

ECMWF 新一代超算原计划在 2021 年投入业务运行,目前看大概延迟 1 年左右时间。 同样 CMA 的新一代超算原计划今年年底投入业务使用,目前尚未完成公开招标,预计正式业务应用至少在 2023 年。

ECMWF 的下一代超算将运行全球 9 公里集合预报,CMA 的新一代超算也将承载多项模式业务系统升级,根据《中国气象局印发“十四五”数值预报发展规划》新闻,预计到 2025 年下一代 HPC (或者下下一代) 承载的业务系统升级包括:

  • 12.5 公里分辨率全球天气模式
  • 全国 1 公里逐小时循环的同化预报系统
  • 25 公里分辨率全球集合预报系统
  • 中国区域 3 公里对流尺度集合预报系统
  • 以及更多水平分辨率提升的业务模式系统

单就峰值运算速度来说,目前 CMA 的 CMA-PI 超算与 ECWMF 的 Cray 超算能力相当,都是 8 PFlops。 文中介绍 ECMWF Atos 超算是现有性能的 5 倍,可以大致推算出新 HPC 的峰值运算速度在 40 PFlops 左右。 CMA 新一代超算尚未完成公开招标,在中国政府采购网的 采购资格预审公告 中,要求建设两套异地部署的 HPC,系统峰值运算速度分别不低于 26 PFlops 和 20 PFlops,基本和 ECMWF 新一代超算处在同一量级。 同时,在《全国气象发展“十四五”规划》中提到:

实施气象高性能计算迭代工程,建设总峰值运算速度不低于 200PFlops、可用存储容量不低于 500PB 的低能耗国家级高性能计算机系统。

未来五年内,我们国家气象超算的计算能力一定会步入世界先进行列。

每次高性能计算平台升级都会带来全新的挑战和机遇。 非常期待 CMA 的新一代高性能计算基础设施能具备更稳定高效的硬件环境更完善的软件生态系统,为自主研发的数值天气预报模式提供强劲的运行引擎和研发平台,也为从事 HPC 相关工作的气象信息技术人员提供更广阔的职业舞台。

参考

原文链接:《Taking ECMWF’s new high-performance computing facility into operation

相关博文:

视界:HPC 2020 - ECMWF 新高性能计算机

NWPC高性能计算机环境介绍

相关资讯:

CMA PAI-B 系统 TOP500 页面

ECMWF CRAY XC40 系统 TOP 500 页面

HPC2020 User Guide

19th Workshop on high performance computing in meteorology

国家气象信息中心气象信息化系统工程项目国家级高性能计算机系统采购资格预审公告》(2022年06月09日 18:09 来源:中国政府采购网)

中国气象局印发“十四五”数值预报发展规划》(2021-10-12 09:52 来源:气象局网站)