AI4ESS 2020:机器和统计学习基础:实际应用

目录

本文翻译自 AI4ESS 2020 课程,并有部分修改

Artificial Intelligence for Earth System Science (AI4ESS) Summer School

Machine and Statistical Learning Fundamentals

Dorit Hammerling - CSM / NCAR

实际应用

研究动机

大局:我们使用气候的自然变异性来模拟大气中一氧化碳(CO)浓度。

动机:为什么要费心为一氧化碳建模?

  1. 火灾是南半球二氧化碳的主要来源。

  2. 一氧化碳可以用作火灾的代理变量。

  3. 预测性 CO 模型可以帮助各国为大规模火灾事件做准备。

响应变量

Terra 卫星上来自 MOPITT 仪器的 CO 测量。

CO 聚集到七个生物质火灾区。

为每个区域创建独立的模型。

响应变量:给定时间 t 的反季节化的 CO 异常。

预测变量

火灾事件通过燃料的可用性和干燥度与气候相关。

气候指数是总结气候非周期性变化的指标。

预测变量:气候指数,滞后t

统计模型

我们使用具有一阶相互作用项的滞后多元线性回归模型来解释大气 CO 与气候指数之间的关系。

$$ CO(t)=\mu + \sum_{k}^{}a_{k}\cdot \chi_{k}(t-\tau_{k}) + \sum_{i,j}^{}b_{ij}\cdot\chi_{i}(t-\tau_{i})\cdot\chi_{j}(t-\tau_{j}) $$

CO(t)是时间 t 处给定响应区域中的 CO 异常

u是恒定的平均位移

ak 和 bij 是系数

X 是气候指数

T 是每个指数的滞后值

气候指数的变化

一些气候指数比其他气候指数更平滑。

NINO 和 AAO 之间的区别非常明显。

大量的可变性使得滞后值的选择很重要。

从一周到下一周可能存在很大差异。

带圆圈的点在时间上接近,但具有非常不同的值。

像这样的特征是噪声还是信号?

平滑气候指数

平滑的气候指数可以防止这些嘈杂的跳跃。

平滑内核:

在数据上移动平均“窗口”。

将权重应用于平均值,以使当前数据点影响最大。

高斯核:

$$ K(t)=\frac{1}{\sqrt{2\pi }}exp(-t^{2}/2) $$

其中参数 t 控制平滑窗口的大小

通常使用交叉验证来选择窗口大小

平滑样条线:

  • 优化 “损失 + 惩罚” 形式的损失函数

  • 损失项鼓励平滑样条,以很好地适应数据。

  • 惩罚项可防止平滑样条过度拟合。

寻找函数 f,最小化:

$$ \sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2}+\lambda\int {{f}''}(t)^{2}dt $$

调整参数 labmda 平衡损失和惩罚项。

通常通过交叉验证选择调整参数。

平滑可减少噪声,但也可能消除信号。

模型性能

在这种情况下,平滑实际上会增加测试 RMSE! 毕竟变异性也许是信号…

参考

参考

https://www2.cisl.ucar.edu/events/summer-school/ai4ess/2020/artificial-intelligence-earth-system-science-ai4ess-summer-school

https://github.com/NCAR/ai4ess-hackathon-2020

AI4ESS 2020:机器和统计学习基础:通用框架,推断与预测

AI4ESS 2020:机器和统计学习基础:函数形式,交叉验证和模型选择