ECMWF软件战略和路线图译注:2 软件路线图
本文为《论文阅读:ECMWF软件战略和路线图2023-2027》的译注
原文
译注段落:2 软件路线图
译注
现状
CEMC 同样运行多套数值天气预报模式业务系统,从全球到区域,从确定性模式到集合预报模式,从大气模式到大气化学、海洋等专业模式。 下图以 CMA-GFS 为例介绍 CEMC 的业务系统工作流。
图 CMA-GFS模式业务系统的工作流,包含 CEMC、NMIC、NMC 等单位的多个系统
与 IFS 类似,CMA-GFS 的工作流同样包含从观测资料获取到最终的产品分发全流程。 但与 ECMWF 作为一个实体完全控制 IFS 全部工作流不同的是,CMA-GFS 工作流由 CMA 内部的多个单位共同完成。 在上图所示的工作流中,观测资料获取、产品分发和 HPC 管理由 NMIC 承担,预报产品及服务由 NMC 完成,而 CEMC 负责 CMA-GFS 的资料预处理、同化、模式积分、后处理和部分产品的制作。 实际上,更完整的工作流还包括上下游的更多单位,比如 CMAMOC 处理雷达等观测资料,NSMC 处理卫星观测,PSMC 负责提供对外服务等等。 分散组织的工作流有利于不同实体专注于工作流的特定环节而开展针对性的攻关,但带来包括重复建设、兼容性差等一系列问题。
集约化
CMA 多年来一直推动对业务系统的集约化整合,早在 2018 年就发布《气象信息系统集约化管理办法》[1],提出“统筹规划、统一标准、集约高效、充分共享、安全优先”的原则,并确定建设信息基础设施云平台和气象大数据云平台。 经过多年的建设和试运行,已经建成并业务化一系列“天”字系列系统,包括气象综合业务实时监控系统“天镜”(2020 年)[2],气象大数据云平台“天擎”(2021 年)[3],综合气象观测数据质量控制与产品业务系统“天衡天衍”(2024 年)[7]。 并在 2022 年成立国家级气象软件工程企业[4],并发布《气象业务软件统筹发展工作方案(2022—2025年)》[5],在 2023 年发布《气象业务软件组件化开发指南(2023版)》[6]。 2024 年 CMA 联合发改委发布《关于统筹集约建设气象业务软件的指导意见》,“明确气象业务软件采用以地球系统大数据平台为统一‘大平台’,以组件构建起支撑核心业务的‘大系统’,发展适应不同业务领域、不同业务层级用户需求的定制化‘多应用’的‘大平台、大系统、多应用’总体架构,实现气象业务系统的‘设施统筹、平台统一、数据统管、系统集成’,最终形成统一规划设计、严格技术标准、组件众创共享、功能高效迭代的气象业务软件发展新格局”[8]。 综上所述,CMA 以气象大数据云平台及其进阶版地球系统大数据云平台为基石完成对业务系统的集约化整合目标,并通过组件化的技术方案来实现单平台多应用的总体架构。
从上图来看,无论是工作流中的观测资料获取还是后端的产品服务和预报,都已经形成一系列软件系统,包括具有较长历史的 CTS 和 Micaps,以及近年来业务化的 CMADaaS。 而 CEMC 的工作流完成运行在 HPC 上,采用以数值预报模式为核心的组织方式,每个模式系统的工作流之间相互独立,仅有少部分模块共享,因此也就没有形成相对独立的软件系统。 这种方式适合在 HPC 上运行的工作流,各系统可以独立开发和部署,一个系统的变更操作也基本不会影响其他业务系统,降低了更新的难度,也节省了大量的测试时间。 但 HPC 上的业务系统构建策略不一定能完全适应集约化平台 CMADaaS,如果依然采用以模式为核心的工作流,则需要维护的业务系统将会成倍增加,也不太符合组件化的技术方案。
集约化融入尝试
CEMC 正在开展业务系统融入 CMADaaS 的相关工作,已通过信息化系统工程项目将部分图形产品制作任务部署到 CMADaaS 的加工流水线中开展测试。 但是在开展测试过程中发现超算业务系统运行调度的方式不能完全适应加工流水线的环境。 项目共采用了三种方案:
方案一:使用数据源触发方式调度绘图算法,每个数据文件会触发十几个绘图算法,但每个绘图算法需要运行一段时间,导致短时间内同时调度大量任务,超过账户的资源总量限制,造成任务积压,严重影响了加工流水线的任务调度排队时间指标。
方案二:对任务触发进行了改进,从一个算法绘制一张图片改为一个算法串行绘制一类图片,减少任务总量,但串行绘制导致算法执行时间增加,依然会造成算法积压。
方案三:再一次对运行方式进行改进,将触发绘图算法改为向消息中间件中发送绘图任务,通过控制消息队列的消费者数量来限制同时运行的作业数,但依然没有解决任务积压的问题,导致每次测试必定会触发监控报警。
图 绘图任务的两种触发方式,左图是方案二,右图是方案三,有待进一步优化完善
方案三的问题这可能和项目的实现有关系,需要进一步调试并优化完善。 但根本原因是在设计项目技术方案时没有站在云原生的角度考虑,而是想要将超算上的经验直接照搬到加工流水线上,从而得到现在看来水土不服的技术方案。
笔者认为,加工流水线的设计更侧重于时间敏感型任务 (time critical),即在规定时间内完成特定的任务,更贴切实况业务的需求。 而超算上虽然资料同化和模式积分等任务也强调运行时间,但也有部分任务不太关注运行的及时性,可以容忍一定时间的延迟。 因此在设计绘图任务调度方案时往往会提交大量任务,依靠工作流工具或者超算作业调度系统提供的任务管理功能来实现对任务运行的流量控制。 也就是虽然某些任务满足触发条件应该运行,但是因为资源不够或者人为配置的运行限制,任务得等待一段时间才能被运行。 但是在加工流水线中,调度延迟是重要的考核指标之一,所以直接照搬超算运行调度方式的左图方案行不通。 而运行时长又是另一个关键的指标,右图方案需要长时间运行工作单元,也不能完全符合加工流水线的要求。
超算上的运行调度方案是在业务系统开发具有极大灵活性的背景下形成的,可以很容易尝试各种各样的想法。 这种灵活性也会带来一定的问题,开发过于随意,不同系统之间缺乏统一标准,一旦切换到技术选型有限的开发环境中,很容易出现不适应的现象。 笔者多年在桌面电脑和超算环境从事开发工作,已经适应不受限制的开发环境,而 CMADaaS 的开发流程中有一定的人工审核环节,所以一直在纠结是否专注于超算平台而避免深度参与加工流水线的算法开发工作中。
不过,从项目的执行情况看,单纯依靠外包力量来做信息化融入有很大问题,无法保证算法质量,而且不实际参与开发过程中就很难拿出有效的技术方案。 对于笔者这样从事业务系统流程建设的信息技术人员来说,必须要正确看待集约化融入这项 CMA 的重点工作,也必须要在 CMADaaS 平台上开展工作了。 笔者将继续研究在加工流水线运行绘图任务的技术方案,争取早日具备业务化融入能力。
计划
笔者认为集约化融入工作不只是寻找合适的方案将 HPC 上的任务平行迁移到云平台加工流水线中,还应该进一步考虑是否需要重新设计整个数值天气预报业务系统的架构,考虑是否将按照不同数值模式组织的工作流重构为按照模块功能组织的工作流,将不同模式的观测资料预处理、产品制作等流程整合为单一的软件系统,从分散独立的多个工作流变为相互之间有关联的几个大系统。 当然经过二三十年形成的业务系统框架不会说变就变,还需更深入的调研和讨论。 CEMC 最重要的任务一定是发展模式软件本身,业务系统一定要能够匹配快速迭代更新的模式软件,在确保这个前提基础上才能进一步开展其他工作。
地球系统大数据云平台的建设会给气象信息技术领域的技术人员带来新的挑战与机遇,让我们拭目以待。
参考文献
中国气象局. 中国气象局关于印发《气象信息系统集约化管理办法》的通知(气发〔2018〕117号). 2018.12.21. https://www.gov.cn/zhengce/zhengceku/2018-12/31/content_5446745.htm
中国气象报. “天镜”投入运行具备全流程监控能力 保障气象业务高效稳定. 2020.12.24. https://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xqxyw/202012/t20201224_568944.html
中国气象报社. 气象大数据云平台正式业务运行提供数算一体平台化服务 全面支撑“云+端”新业态. 2021.12.15. https://www.cma.gov.cn/2011xzt/2021zt/20211215/2021121502/202204/t20220411_4748592.html
中国气象报社. 国家级气象软件工程企业启动组建. 2022.08.08. https://www.cma.gov.cn/2011zwxx/2011zbmgk/2011zjld/2011zfjzyxw/2011zzyhdyxw/202208/t20220808_5024293.html
中国气象报社. 中国气象局印发方案推动气象业务软件统筹发展. 2022.09.23. https://www.cma.gov.cn/2011xzt/2022zt/20220411/2021032203/202209/t20220929_5110924.html
中国气象局. 预报司关于印发《气象业务软件组件化开发指南(2023版)》的通知(气预函〔2023〕76号). 2023.09.13. https://www.cma.gov.cn/zfxxgk/gknr/wjgk/qtwj/202309/t20230913_5772613.html
中国气象报社. 天衡天衍系统正式投入业务运行. 2024.01.12. https://www.cma.gov.cn/2011xwzx/ywfw/202401/t20240112_6001398.html
中国气象报社. 中国气象局和国家发展改革委联合印发关于统筹集约建设气象业务软件的指导意见. 2024.01.15. https://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xqxyw/202401/t20240115_6006604.html