数值天气预报模式系统运维分级方案示例
概述
随着数值天气预报业务的持续发展,加上即将进入到新老模式双核运行的过渡时期,可以预计需要集成和维护的系统将在一段时间内持续增加。 在集成运维团队人员无法相对应增长的情况下,如何合理安排有限的人力依序开展工作成为一个必须要考虑的问题,以促进团队的可持续发展。
本文以假想的数值天气预报业务系统集成与运维团队 (CEMC-OPER) 为例,介绍一种对数值天气预报模式系统进行运维分级的方案。
注:本文仅代表笔者本人观点,不表示该方案在 CEMC 中实际应用。 如果想了解 CEMC 的具体实践,请咨询 CEMC 相关部门。
参与人员
- CEMC-OPER 值班团队:参与运维轮值
- CEMC-OPER 系统建设团队:系统运行流程开发人员,建设 ecFlow 运行系统
- CEMC-OPER 外协运维团队:参与 7x24 运维值班
- CEMC 业务系统研发团队:系统程序开发人员
- 外单位业务系统研发团队:外单位的系统程序开发人员
运维岗位
运维岗位分为三类。
注:实际上有四个岗位,为了缩减岗位种类,二线岗位包含两种角色。
一线
7 x 24 小时在岗,运维值班员
负责监控业务系统运行情况,并处理常见故障。 发现故障后,先尝试处理故障,如果无法处理,联系二线运维。
由 CEMC-OPER 外协运维团队承担,特殊情况下由 CEMC-OPER 值班团队承担。
二线
7 x 24 小时响应,运维领班
响应一线运维,负责处理复杂故障,分析故障原因。有必要时联系二线+和三线人员。
由 CEMC-OPER 值班团队承担。
二线+
较少情况下响应,系统建设者
分析系统故障原因,处理系统 BUG,执行系统更新。
由 CEMC-OPER 系统建设团队承担。
注:CEMC-OPER 的值班团队与系统建设团队有较大重叠,二线可以同时承担一部分二线+职责。 本段介绍的岗位仅适合运行系统建设与运维值班由同一团队承担的情况。
三线
罕见情况下响应,程序开发者
分析程序故障原因,处理程序 BUG,开发程序补丁。
由 CEMC 业务系统研发团队和外单位业务系统研发团队承担。
运维优先级
分为 5 个级别,从高到低分别是:
P1
1 小时内响应,值班人员发现故障时需要即时响应。
P2
6 小时内响应,发现故障后允许一定时间的延迟处理。 相邻时次间隔一般在 6 - 12 小时,值班人员需要在下一个时次运行前处理故障。
P3
1 天内响应,值班人员在每次轮值切换前处理当次轮值中的故障。
一般由二线值班人员维护。
P4
3 天内响应,即工作日上班时间处理故障。
一般由系统开发人员维护。
P5
一周内响应,系统处于开发阶段,无法保证实时运行。
一般由系统开发人员维护。
系统分类
按照系统是否每天实时运行分为实时系统和非实时系统两类。
实时系统
需要每天运行的系统,分为以下 5 种类型。
核心系统
产品分发给全国预报用户。
分类
- CMA 官方发文认证的系统,例如:
- CMA-GFS (包括 CMA 海洋子系统、CMA 海浪子系统)
- CMA-GEPS
- CMA-MESO 3KM
- CMA-MESO 1KM
- CMA-REPS
- CMA-TYM
- CMA-CUACE-Dust
- CMA-CUACE-Haze
- CEMC 认证的系统,例如:
- 未来的 CMA-TYM V4
维护级别
7 x 24 小时 P1 级别
服务系统
提供预报服务,产品分发给特定预报用户。
分类
- 产品服务系统
针对某种服务需求生成相关产品的系统。
示例:
- HBB 产品系统
- 台风产品系统
- Solomon MESO 系统
- 业务化切换前的平行试验系统
需要给下游用户实时发送测试数据。
示例:
- 业务切换前的 CMA-MESO 1KM 实时系统
维护级别
每个系统单独确定维护级别
- P1:应急响应期间的台风产品系统
- P2:无产品时限要求的对外产品服务,例如 HBB 产品系统
- P3 或 P4:无明确要求的系统,例如 Solomon MESO 系统
试验系统
不提供预报服务,通常用于内部评估。
分类
不提供产品分发的平行试验系统。例如 MCV 实时系统。
维护级别
P4,主要由系统开发人员维护。
特殊服务系统
针对重大气象服务保障开发的系统,仅在较短期限内运行,产品分发给特定预报用户。
分类
例如亚冬会站点订正产品系统。
维护级别
按不同阶段分级:
- 专项保障期间:P1
- 保障前实时运行期间:P2
- 测试期间:P4
业务备份系统
针对核心业务系统的备份,包括降级运行的系统。
分类
- 实时运行的热备份系统,例如:
- SC4 CMA-GFS 系统
- SC4 CMA-MESO 系统
- 冷备份系统,例如
- SC3 CMA-GFS 系统
维护级别
- 冷备份:P5 或 P4
- 平时:P4
- 提供服务时:P2
- 应急切换后:P1
非实时系统
建设中的业务系统,用于系统测试、批量试验等。
例如:
- CMA-GEPS V2 系统
- CMA-TYM V4 系统
- CMA-CW V1 Dust 系统
维护级别
P5,由系统开发人员维护。
系统生命周期
一个业务系统在不同阶段有不同的维护级别。 两个典型系统的生命周期如下所示。
核心系统
非实时系统 (P5) -> 试验系统 (测试运行,P4) -> 试验系统 (平行试验,P3) -> 服务系统 (提供产品,P2) -> 核心系统 (业务切换,P1) -> (服务系统 -> 停止运行)
特殊服务系统
非实时系统 (P5) -> 试验系统 (测试运行,P4) -> 服务系统 (保障前,P2) -> 服务系统 (保障期间,P1) -> 停止运行
系统运维优先级
下图给出了实时系统运维分级的示意图,某些系统的优先级在特定情况下会有变化。
实时系统运维分级示例
讨论
上文简述了一种对数值天气预报实时运行系统进行运维分级的方案,并在最后给出了不同类型系统的优先级示意图。
文中尚未介绍不同优先级下各个运维岗位的承担人员和具体职责,有待后续完善。 另外需要进一步考虑不同维护等级的系统如何开展系统集成和系统更新升级工作。
参考
系统运维分级反映了组织内部的工作安排形式,本文介绍的运维分级不一定具有普适性。 想要了解更多关于数值天气预报业务系统建设的相关信息,可以继续阅读如下博文: