关于模式检验系列文章的说明
之前写了几篇关于模式检验方法的文章,可能会引起一些误会,在此我说明下写这些文章的初衷。
我不应该提及尚在内部开发中的工具,在此我郑重道歉:抱歉没能很好地区分工作项目与业余项目,未来会多加注意。
为什么想学习模式检验
对于非科班出身的气象从业者,尤其对于日常工作是数值预报业务系统运维的我来说,想要进一步了解数值预报模式的核心技术,最可行的方式就是从模式流程的前后两端入手。 也就是从资料预处理,产品制作和检验评估等方面入手。 其他诸如资料同化,模式积分等方面由于涉及大量领域知识,很难在缺乏系统训练的情况下入门。
近期一直在关注气象领域的机器学习方法,看到验证模型性能用到的部分指标实际上就来自模式检验,已在下面几篇翻译文章中有所介绍:
机器学习和模式检验都会使用到统计学中很多概念。 今年我在模式运行维护方面的一些工作也逐步向统计学靠拢,已在下面几篇文章中有所介绍:
最近也正在看统计学相关的书籍(虽然进展很慢),例如《面向数据科学家的实用统计学》。
模式检验作为数值预报系统的重要部分,是学习统计学时很好的实战应用,所以我在近期开始尝试了解模式检验相关的知识。
为什么要写代码
想掌握一门技术,必须要动手练习。对于程序员来说,最好的练习就是写程序。
感谢开发 GetPy 的前辈老师,提供方便易用的工具,包括输入数据、计算方法和图形绘制等全套流程。 让我可以从代码开始学习模式检验的相关知识,也节省大量用于准备数据的时间。
之前我写的几篇公众号文章中大量列出代码,绝不是 GetPy 中的代码,也不是 对现有工具的源码解析,更不是 为了与现有工具做对比。
这些代码仅是按照从代码中学到的检验算法由我个人编写的代码,纯粹用于学习性质,绝不是 以构建检验工具为目的而编写,也没有任何的通用性。
虽然我在文章中提到 GetPy,但我仅是工具包的 使用者,并时刻准备为工具包的开发贡献力量。
我更关注如何实现已有的算法,而不是去研究新的算法或指标。
后续该如何继续学习
为了避免引起更多误会,我已将公众号上已发表的检验相关文章全部删除。
后续我依然会学习检验指标和算法,但会将参考项目换为由 nmc 开源的检验工具包 meteva。 该工具包提供详细的说明文档,包括对各类检验指标的介绍,并提供丰富的图形产品。
前面之所以没有由该工具开始,就是因为缺乏现成的输入数据。 不过既然数据预处理往往是各类数据分析系统最关键、最耗时间的一个环节,还是应该尝试从零开始,由原始数据生成分析算法需要的输入数据。
虽然很多工具开源的目的就是为了避免大家重复造轮子而浪费时间精力,但我始终认为重复造轮子是一种很好的学习方式。 有了对照,才能更清晰地掌握自己学习的效果究竟如何。
最后,我还是要郑重声明:本公众号仅代表个人观点,所用数据无法代表真实情况。关于模式系统的相关信息,请以官方发布的信息及经过同行评议的论文为准。