NWP业务系统监控平台设计思考

目录

本文介绍笔者在今年上半年对 NWP 业务系统监控平台相关工作的一些思考,介绍当前现状,并给出一种未来发展的计划方案。

声明:本文仅代表笔者个人观点,文章中引用的相关材料仅用于探讨和交流,不能作为最终事实依据。 关于 NWP 业务系统的相关信息,请以官方发布的信息及经过同行评议的论文为准。 如有任何疑问,建议查阅权威资料或咨询相关领域的专家。

现状

NWP 业务系统监控平台包括两个部分,下图给出了两个部分的示意图

图 NWP 业务系统监控平台现状

业务集成与控制

功能

  • 运行流程构建
  • 实时运行
  • 运行监控(ecFlow 界面)
  • 故障处理

业务运行监控

功能

  • 运行监视(Web)
  • 故障告警(微信)
  • 运行信息展示
  • 运维管理(故障记录、更新记录、值班管理)

存在问题

研发到业务(R2O)

  • 每个系统单独建立 ecFlow 流程,系统之间缺乏代码/组件共享
  • 研发和业务运行流程不一致 (shell vs ecFlow),显著增加业务部署成本
  • 系统建设在业务运行账户中直接进行,过于依赖开发人员的经验,缺少自动集成、自动部署功能

业务到研发(O2R)

  • 监控网站仅面向运维需求开发,缺乏为模式研发人员提供业务运行信息
  • 故障分类过于简单,没有与系统更新相关联,缺少事务跟踪管理功能

监控

  • HPC 登录节点运行 ecFlow ,业务监控严重依赖超算,不方便同时监控多个超算上的业务系统
  • 网站前后端紧密耦合,依赖单一供应商的技术,存在供应链风险
  • 运行信息种类过少,需要在系统运行时生成更多运行信息,详细记录系统运行流程信息

计划

下图展示了 NWP 业务系统监控平台未来发展的一种方案,形成 4 种相互关联的服务:

  • 集成部署服务
  • 工作流调度服务
  • 运行监控服务
  • 事务追踪管理服务

图 NWP 业务系统监控平台发展的一种方案

不同角度的功能特点

R2O

  • 版本库 + 集成部署服务

O2R

  • 版本库 + 事务追踪管理服务
  • 业务运行网站服务

监控

  • 工作流调度服务
  • 运行监控服务
  • 业务运行网站服务

参考

CEMC数值天气预报业务系统建设介绍(2023版)