2020年第三季度工作总结

September 30, 2020 (最后修改: August 22, 2021)

随着全年最重要的任务 业务系统升级 于第二季度完成，我在最近三个月有充足的时间做自己感兴趣的工作，开始进入对转型的探索期中。不过，转型不是想一想就能实现的，尤其是像我这样全凭自己探索方向，缺乏足够的指导，连最终的目标都没有确定，就更不用说能否成功了。

在总结第二季度工作时，我已列出第三季度的计划。虽然我确实是按照计划开展了后续工作，但却没能实现所有的目标。

系统建设

业务系统没有大规模的升级更新，但因为运行环境和产品需求，进行了一些维护级更新。

FTP 切换

因服务器下线等问题，调整 FTP 上传，将 GRIB 2 产品发送给 CTS。最终目标是不再直接向外单位用户发送产品，而是将产品全部传输至信息中心，再由信息中心进行分发。

这种方式会极大降低运维成本，也符合预报司最新的数据管理规定。但增加的中间环节会导致与最终用户脱离，我们无法明确知道产品到底是哪些用户在用。之前就已有类似的情况发生，最终用户并不知道数据的流转方式，缺数据时用户的第一反应很可能是产品没有正常生成。不过，我们部门更关注如何保证产品成功发送，对于提供服务的时效性并不是关注的重点。

产品分发管理一直是业务系统中欠缺，但又不是必须的功能。我曾经做过一部分工作，但发现想要将分发管理与实际分发相结合，需要重构产品分发流程，在现有系统框架下很难实现，就不再继续这方面的工作。后续会将产品制作全部放到气象大数据平台中，也许可以重新开展产品分发方面的工作。

新产品

GRAPES TYM 后处理增加为 NMC 制作的台风动画 GIF 产品。

我认为针对单一特殊需求而在业务系统中增加新任务不是最佳实践，业务系统应该保持稳定。不过，我们暂时没有其他手段能实时制作产品，也许气象大数据云平台能提供合适的工具。

气象大数据云平台培训

参加了 7 月 30 日信息中心关于气象大数据云平台的在线培训。因为没有可用账户，缺乏使用经验，所以收获有限，具体讨论参见：

《气象大数据云平台培训感想》

另外在为基于加工流水线的产品后处理项目准备文字材料时，翻译了 ECMWF 之前的一篇报道

《视界：用于可扩展后处理的 Hermes 服务》

运维

应当从工作中提炼科学问题，不能仅停留在工具开发层面。第三季度，我没能从运维工作中总结出新的科学问题，也就是说没能设计出与运维相关的新的算法。

这是一件值得警惕的事情，不能为了开发而开发，应该将开发工具当成验证算法的一种方式。我应该更关注工具背后所使用的算法，研究已有算法是否有改进空间，研究运维需求是否能衍生出新的算法。

最近看到国家气象信息中心发布第一批和第二批 创新团队骨干成员遴选公告，其中部分岗位职责正好与数值预报模式系统业务系统相关，可以作为提炼科学问题的参考。比如：

模式运行流程调度技术（自主的流程调度原型系统）
气象数值模式特征分析
流水线调度和算法集成技术研发（云平台加工流水线与HPC并行计算的调度协同）
数据全生命周期监控技术研发
业务配置与控制技术研发
智能化运维技术研究
业务报表及评估分析
告警通知机制及可视化技术研发

下阶段可以参照上述岗位及相应的职责要求，思考后续应该如何开展工作。

值班网站

在全科同志的共同推动下，值班系统的报警质量已有显著的提升。

8 月份 HW 行动期间，旧版值班系统网段被封，无法继续使用。尝试使用新版值班网站记录值班日志，可以满足日常维护记录的需求。计划最晚于明年汛期之前正式切换，替代旧版值班系统。

ecFlow

为统计每天运行的作业数量，使用 ecFlow API 开发获取任务节点数的脚本，详情参看：

《ecFlow笔记：获取任务节点数》

业务高峰时段，ecFlow UI 界面经常出现无法获取服务运行状态的情况。为了寻找原因，在信息中心的支持下，将 ecFlow 脚本输出目录切换到 SSD 盘，基本解决界面卡住的现象。详情请查看：

《ecFlow笔记：使用SSD盘保存ecFlow生成文件》

下阶段可以考虑研究将业务系统使用的 ecFlow 从 v4 版本切换到 v5 版本的可行性，研究切换对业务系统本身和相关运维系统的影响。当然这不是迫切的任务，我们对业务系统底层的非兼容性更新一直保持谨慎的态度。

消息平台

二季度工作总结中提到，现代化专项消息平台是第三季度的工作重点。本季度，主要完成以下任务

新消息

封装 ecflow_client 命令，每次调用会发送一条 ecflow-client 类型消息。下面是一条实际的消息记录：

{
    "app": "nwpc-message-client",
    "type": "ecflow-client",
    "time": "2020-09-29T07:01:13.936647058Z",
    "data": {
      "args": [
        "modelvar_036"
      ],
      "command": "event",
      "ecf_date": "20200929",
      "ecf_host": "login_b06",
      "ecf_name": "/check_grapes_meso_3km/03/initial",
      "ecf_port": "31071",
      "ecf_rid": "203564",
      "ecf_tryno": "1",
      "envs": null
    }
  }

已在业务系统中进行评估，实时发送消息，包括：

辅助系统 service_checker
辅助系统 system_checker
业务系统 globalchartos

目前仅将 ecflow 消息数据存储到 ES 库中，下一阶段计划对数据进行分析，验证该消息数据是否能在一定程度上代替 ecFlow 日志。

分析

针对产品消息数据，使用自助法计算 95% 置信区间，作为产品生成的标准时间。保存的标准时间如下所示：

{
  "app" : "nwpc-message-tool",
  "type" : "prduction-standard-time",
  "time" : "2020-08-25T11:29:00.991260",
  "data" : {
    "system" : "grapes_meso_3km",
    "stream" : "oper",
    "type" : "grib2",
    "name" : "orig",
    "start_hours" : [
      {
        "start_hour" : "00",
        "times" : [
          {
            "forecast_hour" : 0,
            "upper_duration" : "P0DT4H54M48S",
            "lower_duration" : "P0DT4H33M49S"
          },
          {
            "forecast_hour" : 1,
            "upper_duration" : "P0DT5H0M34S",
            "lower_duration" : "P0DT4H38M33S"
          }
        ]
      },
      {
        "start_hour" : "03",
        "times" : [
          {
            "forecast_hour" : 0,
            "upper_duration" : "P0DT3H28M1S",
            "lower_duration" : "P0DT3H12M40S"
          },
          {
            "forecast_hour" : 1,
            "upper_duration" : "P0DT3H32M4S",
            "lower_duration" : "P0DT3H16M35S"
          }
        ]
      }
    ]
  }
}