统计数值天气预报模式积分运行时间

目录

本文属于介绍NWPC工作流日志分析的系列文章。

最近一段时间,单位对数值预报业务系统产品的时效性越来越重视。 之前的文章《适用于NMC监控平台的数值预报产品消息》中介绍气象中心建立统一监控平台,展示包括数值预报在内的各个业务产品的到达时间。另外,气象中心每天还在微信公众号“中央气象台运维平台”上推送“每日运维快报”,通报所有产品是否准时到达。 产品延迟超过30分钟注定会被正式当做故障指标。 另外,今年即将到来的版本更新可能会增加模式积分的运行时间,留给产品制作和故障处理的窗口时间会越来越少,运维面临严峻的挑战。

作为一线运维人员,我们一直怀疑产品延迟与模式积分时长的不稳定有关系,本文试图通过统计数据来判断这一猜测是否有实际依据。

本文利用ecFlow日志,统计业务系统中四个模式积分任务的运行时间。

声明:本文仅代表作者个人观点,用于说明NWPC工作流日志分析工具的应用场景,所用数据无法代表真实情况,严禁转载。关于模式系统的相关信息,请以官方发布的信息及经过同行评议的论文为准。

统计方法

根据ecFlow的运行日志计算每个时次模式积分任务的开始和结束时间。 下面是某个模式积分任务某次运行的ecFlow日志示例,其中submiited表示任务开始,complete表示任务结束。

LOG:[04:19:46 3.1.2020]  submitted: /model_A/00/model/fcst_long job_size:18261
LOG:[04:19:54 3.1.2020]  active: /model_A/00/model/fcst_long
LOG:[04:45:13 3.1.2020]  complete: /model_A/00/model/fcst_long

为了得到稳定可信的参考值,将开始时间和结束时间的切尾均值作为标准时间,使用比率0.25计算切尾均值。

最后计算实际结束时间与标准结束时间的差值,标记超过30分钟的时次。

注意:从ecFlow日志得到的时间只是对实际运行时间的近似估计,不是模式积分程序的精确运行时间。

统计工具

日志分析和统计计算使用 nwpc-oper/nwpc-workflow-log-tool 项目提供的工具。

使用 Excel 进行辅助计算。

图表由 Google 表格制作。

统计数据

统计以下模式在2020年2月23日至3月23日共30天00时次的运行时间:

  • MODEL A
  • MODEL B
  • MODEL C
  • MODEL D

后续数据中时间均为UTC时间。

统计结果

简要说明各个模式的统计结果。

MODEL A

标准结束时间:04:43:55。

Model A的模式积分运行时长,紫色标记表示结束时间超过标准时间30分钟

Model A的模式积分任务起止时间

MODEL B

标准结束时间:05:36:19。

Model B的模式积分运行时长

Model B的模式积分任务起止时间

MODEL C

标准结束时间:04:00:03。

Model C的模式积分运行时长

Model C的模式积分任务起止时间

MODEL D

标准结束时间:05:48:20。

Model D的模式积分运行时长

Model D的模式积分任务起止时间

结果分析

Model A 除一次故障外,模式积分启动时间基本一致,但积分时长不够稳定。

Model B 模式积分启动时间基本一致,但积分时长不够稳定。

Model C 没有超过30分钟的延迟。

Model D 模式积分启动时间基本一致,有两次明显的积分超时。

模式结束时间超时大部分都因为积分时间延长。

参考

NWPC工作流日志分析工具

nwpc-oper/nwpc-workflow-log-model

日志数据模型和抽象分析工具

nwpc-oper/nwpc-workflow-log-collector

ecFlow日志采集和解析工具

nwpc-oper/nwpc-workflow-log-tool

ecFlow日志分析工具

后续文件会详细介绍以上工具如何实现,请大家持续关注。