视界:ECMWF走向开放科学

目录

Nikolaos Mastrantonas, Milana Vučković. Towards open science. ECMWF Newsletter Number 167 - Spring 2021. 2021.04. https://www.ecmwf.int/en/newsletter/167/news/towards-open-science

本文正文部分翻译自 ECMWF Newsletter Spring 2021 中由 Nikolaos Mastrantonas 等人撰写的新闻稿《Towards open science》。 翻译底稿来自谷歌翻译,并根据笔者的个人理解略有修改。

正文

在最近论文发表之后,本文提出了我们在 “开放科学 (open science)” 的指引下采取的一些补充行动,使感兴趣的用户和研究人员可以更容易地获取该工作。

共享科学

科学出版物对于扩大我们的知识至关重要。 然而,独立出版物 (stand-alone pulication) 阻止了读者的许多方面的工作。 这就是为什么许多研究人员和研究机构转向开放科学的原因。 这意味着他们将论文的附加材料进行公开发布,例如数据和开发的工具。

最近有关地中海极端降水的论文 (https://doi.org/10.1002/joc.6985) 也遵循类似的路线。 这项工作分析了整个地中海区域极端降水事件的时空特征,并量化了它们与整个区域内大规模大气环流的联系。 考虑到它可能引起许多研究人员以及我们会员国和合作国用户的兴趣,我们的想法比 (开放访问) 同行评审的出版物走得更远。 在迈向开放科学的过程中,这项工作使用了可自由访问的数据集和软件,并在线提供了所有后处理数据和为分析而开发的脚本。

动机

这些附加举措背后的动机有三方面:

  • 共享工具和数据可以支持针对类似主题的研究
  • 我们还希望鼓励更多的科学家采用类似的方法,并加强地球科学界在开放性和可访问性科学领域已经做出的杰出努力。
  • 通过将工作公开发布,我们希望从感兴趣的用户那里获得有价值的反馈。该反馈可以帮助进一步改进所使用的实践并优化分析

简而言之,对开放科学的每项贡献都支持科学界的集体努力,并为改善个人技能和能力提供了机会。

使用的数据和工具

作为哥白尼计划的一部分,ECMWF 提供了 ERA5,这是最新最先进的高分辨率再分析数据集。 该项分析作为对地中海极端降水研究的一部分,使用了 ERA5 再分析数据集,可在 Copernicus Climate Data Store 中免费获得。

我们还使用了 Python 软件,一种免费的开源编程语言,拥有广泛的开发人员社区。 所有用于处理数据和创建图形的脚本都是在 Jupyter Notebook 环境中使用 Python 编写的,Notebook 脚本易于他人使用,并提供了将代码与图形和说明文字一起提供的机会。

可通过 GitHub 上 ECMWF 帐户内的存储库 (https://github.com/ecmwf-lab/med_extreme_prec_atm_patterns) 获得所有笔记和后处理数据。 任何人都可以自由访问此存储库,下载其内容并在本地复现结果。 更重要的是,任何用户都可以修改工作流的各个部分,并根据他们的需求和兴趣进行调整。

开放科学示例,图片来自原网页。 在右侧显示的 GitHub 页面上,用于地中海极端降水研究的数据和脚本已经公开可用。

ECMWF 的开放科学

这项工作只是 ECMWF 对开放科学的众多贡献之一。 为了使我们的科学更易于访问,与科学界共享工作流和数据并为最终用户提供工具,我们付出了许多努力。 但是,如果想要我们领域的科学家使用,仅仅公开文章并开放数据是不够的。 开发开源软件包,促进使用天气和气候数据 (例如 Metview 和 ecCodes) 以及在 ECMWF 的业务产品 (例如 Integrated Forecasting System) 上使用的计算例程,是朝着正确方向迈出的一步。 通过在 Metview 中开发 Python 接口以及用于 Python 和 Julia 语言的 cfgrib 库,使数据可以在更广泛的开源软件生态系统中访问,这使我们的数据有可能被比气象和气候科学家更广泛的受众所使用。 所有感兴趣的用户均可免费访问上述所有内容。 ECMWF 在 2019 年组织的研讨会 “Building reproducible workflows for earth sciences” (https://events.ecmwf.int/event/116/) 提供了许多有关开放科学倡议的小结。

=== 正文结束 ===

讨论

ECMWF 正在朝着开放科学的方向快步前进。 印象最深的就是 ECMWF 在 2019 年年中开始将几乎所有研讨会的视频都公开发布到互联网上,由此即使足不出户也能聆听领域科学家的精彩演讲。 对于像我一样缺少可以出国交流的成果的从业者,这类演讲视频是一个了解领域前沿发展的绝佳机会。 ( 尽管 ECMWF 将演讲视频发布到无法直接访问的 Vimeo 网站,但科学上网几乎是科研工作者的必备技能,所以这不是问题。) 同样,AMS、NOAA 等美国机构也将大量的研讨会视频公开发布到网上,可以任意浏览。我们国内也有越来越多的录屏演讲,在公众号上经常能看到视频分享。 这就带来一个新的问题:资料太多,没有足够时间全部浏览。 需要足够的技巧快速筛选有效信息,从中获取灵感并指导自己的工作,而这正是我欠缺的能力,没有阅读大量论文而培养出来的能力。

开放科学包含三个部分,分别对应论文 (Open Access)、数据 (Open Data) 和软件 (Open Source)。 对我来说,发表论文不太容易,发布数据集也不属于工作范围,开发支撑模式研发的开源软件就成为参与开放科学运动的一个有效途径。 我认为在基础支撑软件工具这一方面有很大的发展空间。 在最近的讨论中,有两项关键卡脖子技术被重点提及:

  • 绘图工具
  • 工作流调度软件

我认为可以使用多种不同的路径来实现:

  • 封装现有接口提供更符合需求的新接口,例如我最近在 perillaroc/nuwe-cmadaas-python 项目中做的尝试
  • 组合多种工具形成实现某种特定功能的新工具,例如基于 Matplotlib、Cartopy 等库开发绘图工具,例如我在 2020 年开发的项目 nwpc-oper/nwpc-data
  • 全新开发,例如自行设计一套工作流软件或数据编解码工具,例如我在 2019 年开发的 perillaroc/nwpc-codes-cpp 项目 (可惜最近两年没有持续更新)

不过我一直在犹豫是否专注于工作流之类的应用级工具开发。 相比于 封装已有接口提供新接口 这种容易实现的方式,全新开发工具 会面临更多挑战,需要有明确的目标来确保开发出的工具比现有开源工具 (及其未来版本) 更符合需求。 仅仅使用 以国产软件代替国外开源软件 的理由明显站不住脚,因为开源软件往往没有那么明确的国别因素,需要找到更有说服力的理由。

笔者衷心希望越来越多的气象领域从业者加入到开源的大家庭中,让我们的工具软件也能在世界大舞台上发出自己的声音。

愿我们坚持开放合作的精神,为我国气象现代化贡献自己的力量。

参考

原文:

https://www.ecmwf.int/en/newsletter/167/news/towards-open-science

ECMWF 2019 年召开的研讨会: Building reproducible workflows for earth sciences

https://events.ecmwf.int/event/116/

相关文章:

论文阅读:数字时代开放的天气和气候科学

读《治国理政》第三卷有感