视界:与NCEP运维的差距

目录

今天说点儿与管理相关的事情

连续两年,我们部门都出现严重的运维事故,产品生成延迟时间较长。 去年是没有在第二天早上会商前提供,今年是连续两天某个模式卡住没有运行。

虽然我一直认为运维事故可以在一定程度上通过某种技术手段避免,也一直在开展这方面的工作,例如今年早些时候撰写的几篇文章

但领导认为这实际也是一个管理问题,并指出我们要从管理方面入手强化对业务系统的监控和保障。 并且第二次提到 NCEP 用和我们一样的人力就能很好地进行系统运维,而 NCEP 的产品是服务全世界的。

前段时间刚好看了 NCEP Central Operations 的组织架构介绍,否则我还真和去年第一次听到类似对比的时候一样,认为这种差距完全是由我们个人造成的。

下面我就根据 NCEP 官方网站的信息,介绍一下 NCO 各科的职责。 以下内容仅仅是对官网介绍的翻译,因为我毕竟没有额外的信息渠道。 不过从官网的介绍中完全能发现,运维上的差距并不只是由值班人员的责任心和运维科管理之类的因素造成的。

概述

NCO 的总体职责:

  • 运行 NCEP 业务模式系统
    • 生成气候,天气,海洋,空间和环境风险等产品
  • 管理对 NCEP 模式系统的改进
    • 支持新模式或改进模式的研究,开发以及向业务的过渡
  • 开发气象软件
    • 由 NCEP 中心用于创建预报器生成的产品
  • 管理数据和产品流
    • 从 NCEP 中心,合作伙伴和客户获取数据,或向他们分发数据

笔者注:类似系统运行科的职责,但运行科不承担数据具体的分发,这项工作由信息中心提供。

组织架构

NCO 由 5 个科构成,如下图所示,原图来自 https://www.nco.ncep.noaa.gov/director/orgchart.php

分别是(中文名称是笔者翻译的,不是官方名称):

  • Network and Security Branch (NSB):网络与安全科
  • Operational Monitoring Branch (OMB):业务监控科
  • Software Development Branch (SDB):软件开发科
  • Infrastructure and Web Services Branch (IWSB):基础设施与网络服务科
  • Implementation and Data Services Branch (IDSB):实施与数据服务科

下面介绍每个科的职责。

OMB

Operational Monitoring Branch

https://www.nco.ncep.noaa.gov/omb/about/

业务监控科(OMB)支持 NCEP 的数值预报业务系统的分发,确保连续获取和分发其他国内外水文气象数据,产品,并确保 NCEP 实时数据处理,分析,预报和产品生成服务的可靠性(24x7x365)。 OMB 还监视 NOAA 的 Integrated Dissemination Program System(IDP)上应用程序的业务处理。

OMB 在以下领域支持 NWS 和 NCEP:

  • 运行 Central Data Switching System(也称为 NWS Telecommunications Gateway,简称 Gateway)
  • 监控在 Weather and Climate Operational Supercomputing System (WCOSS) 上运行的 NCEP 业务作业系统,并提供 “Tier-1” 支持
  • 监视在 IDP 上运行的应用程序
  • 监控 NWS 和 NWS 的联邦、私人和国际合作伙伴的私营企业广域网络,以支持 NWSnet(传统 OPSnet)
  • 监控 NEXRAD 的 CONUS 和 OCONUS 专线
  • 监控其他通讯,如 NIDS、GTS、高空、海事通讯、船舶报告、闪电数据、布宜诺斯艾利斯通讯、加拿大通信和飓风热线。

College Park 的 Senior Duty Meteorologists(SDM)和 Senior Operations Specialists(SOS)是 OMB 的一部分。

SDB

Software Development Branch

https://www.nco.ncep.noaa.gov/sdb/about/

软件开发科(SDB)开发和维护所有 NCEP 服务中心的预报员使用的业务软件,以图形和文本格式创建和分发 National Weather Service 的监视,警告和预报。 该科还开发和维护用于解码,解释和存储水文气象数据和卫星图像的软件,以便在 NAWIPS 和 AWIPS II 软件中显示。 除这些任务外,SDB 还负责在马里兰州大学公园市和科罗拉多州博尔德市的 NOAA Integrated Dissemination Program(IDP)系统中托管的业务网站应用程序的软件转换,支持和维护。

SDB 在以下方面支持 NCEP:

  • NAWIPS 和 AWIPS II National Centers 软件开发和支持
  • 将 NAWIPS 代码迁移到 NWS 的 AWIPS II 基准软件
  • 通过各种互联网服务向 NOAA 和其他政府及公共客户提供模式指导和观测数据。

IDSB

Implementation and Data Services Branch

https://www.nco.ncep.noaa.gov/pmb/about/

实施和数据服务科(以前称为 Production Management Branch 产品管理科)支持 NOAA 高性能超级计算系统上的业务产品系统和 NOAA 的 Integrated Dissemination Program(IDP)系统上的应用程序的实施,维护和 “Tier-2” 支持。 IDSB 是 NCEP 各个方面的计算算法研究开发与业务实现之间的技术过渡。 IDSB 还负责确保将数据及时有效地流向我们的客户,并对与国家气象局(NWS)进行通信的产品进行更改,例如产品标识,可用性和/或路由,以支持 NWS 核心交换系统。

以前属于 PMB 的 Senior Duty Meteorologists 和 Senior Operations Specialists(SOS)(以及 SDM 和 SOSss 本身履行的监控职责)已转移到 NCO 的业务监控科(OMB)。

IWSB

Infrastructure and Web Services Branch

https://www.nco.ncep.noaa.gov/iwsb/about/

基础设施和网络服务科(IWSB)为国家气象服务(NWS)提供 24 小时 Web 服务,计算和通信系统提供系统管理和其他用户服务台支持服务。 这些系统包括服务器和工作站,个人计算机,NCEP 中使用的 NWS 系统,图形绘图仪之类的辅助设备,以及上述所有组件之间的接口。 IWSB 生成并发布与开发环境相关的标准,该标准支持应用程序软件的设计,准备和集成,尤其强调在业务环境中使用此类软件。

IWSB 在以下方面支持 NCEP:

  • 购置,开发和使用用于监视信息系统的特殊工具
  • 当前和将来的信息处理系统的培训和文档的可用性
  • 对概念研究的评审和评估,这些研究指导 NCEP 信息系统的开发,实施和运行
  • 编制采购和管理软件和硬件系统所必需的需求计划和其他信息资源管理文件
  • 系统购置和合同管理

NSB

Network and Security Branch

https://www.nco.ncep.noaa.gov/nsb/about/

网络与安全科(NSB)为国家气象服务(NWS)范围内的局域网和广域网以及高性能计算系统提供 24 小时支持服务。 网络与安全科负责 NCEP 的计算和通信功能以及支持相关技术的设施和基础设施的总体规划,设计,开发,实施和评估。 该科根据 NCEP 和/或联邦法规要求提供系统安全,控制和问责制所需的政策和程序的建议,制定和准备。

差距

我没能找到运行科职责的官方描述,根据多年工作经验,将运行科的工作分为以下四点:

  • 业务系统维护
  • 业务系统建设
  • 研发支撑
  • 数据服务

业务系统维护是运行科最重要的任务,对应 NCO 中的 OMB。 不过运行科只负责监控模式预报和产品生成,其余部分由信息中心负责。 看起来运行科负责监控的系统远远少于 OMB,但需要注意的是 OMB 仅提供 Tier-1 支持,而运行科提供 Tier-1 和 Tier-2 甚至 Tier-3 支持。

这就涉及到业务系统建设任务。NCO 中这部分工作由 IDSB 负责,包括研发到业务的转化,即 R2O。 运行科每年都会投入大量的人力来进行业务系统的升级开发,将零散的程序整合成完整的业务系统,并负责进行平行试验等业务准入工作。

运行科另一项任务就是提供支撑模式研发的各项工具。 NCO 中的这部分工作由 SDB 负责。 虽然我们目前在研发支撑上有这样或那样的问题,但我们每年也还是会投入人力去做这项工作。

运行科还负责一部分数据服务工作,即提供业务归档数据,并负责维护模式研发需要的共享数据集。

另外,运行科还非官方地负责中心的 IT 基础设施维护工作,类似 NCO 中 IWSB 和 NSB 负责的部分工作。

可以看到,运行科负责的任务涉及 NCO 中几乎所有的子部门,虽然负责的范围有所区别,但我依然认为不能忽视运行科与 NCEP 模式系统运维人员在职责上的差距。

比较人力成本的时候不能仅用人头计算,应该用在某项工作中所能投入的总时间来计算。 从目前获得的资料来看,NCO 的 OMB 仅仅只负责运行科工作中的一项。 如果 NCEP 确实用和我们一样的人力就能实现优秀的运维,保障产品按时分发,那我也只能承认确实是自己能力不够,无法达到 NCEP 那样的高度。

思考

今年以来围绕疫情的持续发酵的舆论战令我学到不少道理,其中之一就是一定要掌握第一手资料。 非直接来源的信息往往经过二次加工,不可避免会带上加工者的春秋笔法。 就像常常只看到自己想看到的信息而忽略其他一样。

当然,我这篇文章也仅是自己的一些想法,可能也只看到对我有利的信息。 听说中心正在调研 NCEP 新近变更的组织架构,希望能有一个全面客观的介绍。

参考

https://www.nco.ncep.noaa.gov/