论文阅读:气候模式代码可访问性调查
Current status on the need for improved accessibility to climate models code
Añel, J. A., García-Rodríguez, M., and Rodeiro, J.: Current status on the need for improved accessibility to climate models code, Geosci. Model Dev., 14, 923–934, https://doi.org/10.5194/gmd-14-923-2021, 2021.
这是一篇非常有趣的论文,作者调查是否可以获取参与 CMIP5 项目各个气候模式的源代码,并对拿到的源码材料进行简单的分析,发表在《Geoscientific Model Development》期刊上。
没想到真有研究人员会逐个验证总计 26 个 CMIP5 项目模式的源码是否可以公开。 如果将这项工作扩展到 CMIP6 项目中,可以想象任务量会大大增加。
下面正文章节简要介绍论文的内容,翻译底稿来自谷歌翻译。
正文
CSR:computational scientific repreducibility
由美国国家学院定义,意思是“使用相同的输入数据,计算方法和分析条件获得一致的结果”。
现在,越来越多的期刊都采用计算机代码政策 (computer-code policies)。 研究人员也提出一些建议,以确保结果具有更高的可重复性,包括:
- 维护软件的适当文档
- 将代码拆分为函数
- 将代码提交给发布 DOI 的存储库
- 鼓励外部协作者参与并简化协作
作者认为公开代码可以防止模式迭代更新过程中的知识丢失,并指出模式代码普遍没有达到理想的编程实践层次,复现结果也需要共享代码。
调查方法
作者通过 CMIP5 官方网站、电子邮箱、网上搜索等多种方式获取模式源码信息,向模式研发人员多次发送邮件,并询问不公开源码原因的选项(不过没有中心回复具体的原因)。
结果
是否可以获取代码
成功获取源代码:26 个模式中的 10 个,61 个版本中的 27 个。
详细信息见下表:
表格来自论文,CMIP5 模式清单,包含研究中心的回复信息
作者发现代码公开有明显的地区差异,美国、德国和挪威名列前茅。 下图是不同地区可以获取代码的模式占比。
图片来自论文,可获取代码的模式在不同区域中的比例:a) 全球 b) 欧洲 c) 亚洲
拿到代码的原因
作者认为美国模式开源比例较高与政策有关。 根据美国版权法,联邦雇员制作的所有作品均属于公共领域。 这些模式是在美国开发的,有联邦雇员参与,可以部分解释这一结果。
译者注:可以类比我们使用工作单位资源形成的知识产权同时也是属于单位的。
下表展示作者能获取部分模式源码的原因
图片来自论文,作者能获取部分模式源码的原因
可复现评分
作者结合许可协议和第三方是否可用,对模式源码进行评分。 带有代码的 CMIP5 模式和可重复性得分结果见下表。 可以通过互联网不受限制地访问并具有允许对模式进行全面测试和评估的许可,以三颗实心星的最大值表示该模式。 对于以下每个标准,得分都降低了一颗星:如果要获得该模式的使用权,我们必须联系研究中心或开发小组,签署许可协议或将自己标识为从事气候研究的科学家,并根据许可授予的评估和使用模式的权利(如果适用)。 空的星号表示该模式的许可证不允许修改代码。
表格来自论文,源码评分
作者认为 GPLv3 是最适合气候模式的开源协议。
代码详细信息
运行代码时也遇到一些问题。 在某些方面,如果没有提供有关模式的足够文档,其组件描述,如何编译或运行该模式的说明以及基本示例,则可访问性或对代码的访问权限就没有任何意义。
下表展示是否可以获取足够的详细信息来运行模式
表格来自论文,源码运行相关详细资料情况
结论
作者对几种不公开源代码的可能原因进行了分析:
法律限制:如果不可能使代码可用,则使用这种模式获得的任何结果都不应被认为是科学上有效的,因为不可能验证发现。 我们承认,目前在科学研究中广泛使用的几种模式就是这种情况,这种情况必须通过修改适用于它们的法律规范来解决。 因此,使用此类模式的人员应寻求法律条款的更改,以使该模式符合科学方法。
依赖专有软件:将专有软件替换为免费软件
缺少经费支持软件仓库:使用 Zenodo 等免费仓库
侵犯产权:对侵犯产权的恐惧通常表明更多地是缺乏对法律如何适用于软件发行的认识,而不是对实际问题的认识。 知识产权通常与适用于模式分发的规范脱节。 除非开发人员明确放弃知识产权,否则,尽管有合同义务,并且软件已提供和分发,但通常仍保留该知识产权。 最好的选择是始终在这些问题上寻求专业的法律建议。
作者认为 CMIP5 气候模式的代码可访问性非常糟糕。
科学家可能担心代码质量不佳,影响自己的声誉,但作者认为所有科学家有必要相信它们的代码足够好 (Barnes, 2010),并且没有理由不发布它们 (LeVeque, 2013)。
作者建议将模式的 冻结版本 (frozen version) 与 云计算技术 (如 Docker) 相结合,就可以迈出一大步,以实现地球系统建模结果的完全可复制性。
讨论
我一直以为只有美国愿意开源模式代码,读过这篇文章后才发现,有这么多国家的科研机构也在公开自己的模式代码,而美国开源可能很大程度上是因为政策要求。
针对数据是否可以公开发布,去年发布的《气象数据管理办法(试行)》已有明确规定,将科研类数据的发布权限进行统一的管理,详情可以查看气发〔2020〕92号文件。 从目前情况来看,模式数据至少在短时间内不会提供类似 NCEP GFS 数据的公开下载。 而模式代码能否开源就更无法估计,毕竟核心关键技术是不会轻易公开发布的。
不过模式系统支撑工具领域倒是有很多开源项目,我也认为工具软件的开源将成为大趋势,欢迎更多同行加入到开源的队伍中。
文中提到将模式版本与云计算技术结合的思路值得借鉴,非常适合像我一样从事模式业务系统建设和运维工作的人进一步研究。
参考
论文网址:https://gmd.copernicus.org/preprints/gmd-2020-420/