统计数值天气预报模式积分运行时间
本文属于介绍NWPC工作流日志分析的系列文章。
最近一段时间,单位对数值预报业务系统产品的时效性越来越重视。 之前的文章《适用于NMC监控平台的数值预报产品消息》中介绍气象中心建立统一监控平台,展示包括数值预报在内的各个业务产品的到达时间。另外,气象中心每天还在微信公众号“中央气象台运维平台”上推送“每日运维快报”,通报所有产品是否准时到达。 产品延迟超过30分钟注定会被正式当做故障指标。 另外,今年即将到来的版本更新可能会增加模式积分的运行时间,留给产品制作和故障处理的窗口时间会越来越少,运维面临严峻的挑战。
作为一线运维人员,我们一直怀疑产品延迟与模式积分时长的不稳定有关系,本文试图通过统计数据来判断这一猜测是否有实际依据。
本文利用ecFlow日志,统计业务系统中四个模式积分任务的运行时间。
声明:本文仅代表作者个人观点,用于说明NWPC工作流日志分析工具的应用场景,所用数据无法代表真实情况,严禁转载。关于模式系统的相关信息,请以官方发布的信息及经过同行评议的论文为准。
统计方法
根据ecFlow的运行日志计算每个时次模式积分任务的开始和结束时间。
下面是某个模式积分任务某次运行的ecFlow日志示例,其中submiited
表示任务开始,complete
表示任务结束。
LOG:[04:19:46 3.1.2020] submitted: /model_A/00/model/fcst_long job_size:18261
LOG:[04:19:54 3.1.2020] active: /model_A/00/model/fcst_long
LOG:[04:45:13 3.1.2020] complete: /model_A/00/model/fcst_long
为了得到稳定可信的参考值,将开始时间和结束时间的切尾均值作为标准时间,使用比率0.25计算切尾均值。
最后计算实际结束时间与标准结束时间的差值,标记超过30分钟的时次。
注意:从ecFlow日志得到的时间只是对实际运行时间的近似估计,不是模式积分程序的精确运行时间。
统计工具
日志分析和统计计算使用 nwpc-oper/nwpc-workflow-log-tool 项目提供的工具。
使用 Excel 进行辅助计算。
图表由 Google 表格制作。
统计数据
统计以下模式在2020年2月23日至3月23日共30天00时次的运行时间:
- MODEL A
- MODEL B
- MODEL C
- MODEL D
后续数据中时间均为UTC时间。
统计结果
简要说明各个模式的统计结果。
MODEL A
标准结束时间:04:43:55。
MODEL B
标准结束时间:05:36:19。
MODEL C
标准结束时间:04:00:03。
MODEL D
标准结束时间:05:48:20。
结果分析
Model A 除一次故障外,模式积分启动时间基本一致,但积分时长不够稳定。
Model B 模式积分启动时间基本一致,但积分时长不够稳定。
Model C 没有超过30分钟的延迟。
Model D 模式积分启动时间基本一致,有两次明显的积分超时。
模式结束时间超时大部分都因为积分时间延长。
参考
NWPC工作流日志分析工具
nwpc-oper/nwpc-workflow-log-model
日志数据模型和抽象分析工具
nwpc-oper/nwpc-workflow-log-collector
ecFlow日志采集和解析工具
nwpc-oper/nwpc-workflow-log-tool
ecFlow日志分析工具
后续文件会详细介绍以上工具如何实现,请大家持续关注。