AI4ESS 2020：机器和统计学习基础：通用框架，推断与预测

July 13, 2020 (最后修改: August 21, 2021)

meteorology/ml

本文翻译自 AI4ESS 2020 课程，并有部分修改

Artificial Intelligence for Earth System Science (AI4ESS) Summer School

Machine and Statistical Learning Fundamentals

Dorit Hammerling - CSM / NCAR

通用框架，推理与预测

有用的参考书

免费，并且写得很好，都有良好的代码示例

An Introduction to Statistical Learning with Applications in R

数学内容较少。

The Elements of Statistical Learning

更偏向于数学。

面向初学者的一些定义

统计学习（Statistical learning）：大量可从数据中获取见解的工具

监督 vs 非监督：输出 + 一个或更多的输入

分类
回归
。。。

监督学习：只有输入，对这些输入的结构更感兴趣

聚类
相关分析
降维，例如主成分分析

本讲座将聚焦监督学习。

基本模型方程

监督模型的最简单形式

$$ Y = f(X) + \varepsilon $$

模型构成：

$Y$：我们感兴趣的一些变量，输出

$f$：关于 $X$ 的某种固定但未知的函数

$X$：变量 $X_{1},…,X_{p}$，我们相信可能与 $Y$ 有某种关联，输入

$\varepsilon $：随机误差项

机器学习的主要目标：

估计 $f$

回归 vs 分类

监督学习的场景可以分成回归（regression）和分类（classification）两类问题：

如果输出 $Y$ 是定量变量 => 回归
如果输出 $Y$ 是定性（类别）变量 => 分类

上述类别不依赖于输入变量，输入变量即可以是定量变量，也可以是定性变量。

还有一个灰色区域，例如在逻辑或多项式回归的情况下，输出是分类的。

为什么想要估计 $f$

两个主要的原因：

预测：如果我们获得一个新的 $X$，想要得到对应的 $Y$
推理：$X$ 和 $Y$ 之间的关系是什么

我们的动机会影响我们选择模型 $f$ 的方法！

在预测准确性和模型可解释性之间进行权衡：

更简单，更不灵活的模型通常更易于解释，但可能不如更灵活的模型准确。

预测

预测等式的简单形式

$$ \hat{Y} = \hat{f}(X) $$

变量含义

$\hat{Y}$：$Y$ 的预测

$\hat{f}$：$f$ 的估计

$X$：输入变量，$X_{1},…,X_{p}$

如果我们的目标仅仅是预测结果，那么可以将 $\hat{f}$ 当成一个黑箱。

这意味着我们不关心 $\hat{f}$ 的精确形式，也不关心 Xs 是如何与 Ys 关联的。

我们关心的是准确的预测。

预测精度

我们预测的 $\hat{Y}$ 与真实值 $Y$ 有多接近？

通常表示为 Y 的预测值和真实值之间的平方差，它取决于两个误差分量。

可减少的误差和不可减少的误差的分解：

\begin{equation*} E(Y-\hat{Y})^{2}=E[f(X)+\epsilon - \hat{f}(X)]^{2} \\ = \underbrace{[f(X)-\hat{f}(X)]}{Reducible} + \underbrace{Var(\epsilon )}{Irreducible} \end{equation*}

解释不可减少的误差

Figure credit: Introduction to Statistical Learning, Figure 2.2

预测精度（续）

统计学习的重点在于最小化可减少的误差。根据定义，这对于不可减少的误差是无法做到的，这为预测精度提供了一个界限。不幸的是，在实践中这种界限几乎总是未知的。

为什么会有不可减少的误差？

对于预测 $Y$ 可能有用的变量没有测量，或不是 $X$ 的组成部分。
在建模的系统中存在固有的可变性

推断

我们想要理解 $X$ 和 $Y$ 之间的关系，特别是 $Y$ 如何以 $X_{1},…,X_{p}$ 的函数形式进行变化。

在这种情况下，我们不能将 $\hat{f}$ 作为黑箱，我们更关注它的确切形式。

推断领域中出现的典型问题：

哪些预测因素与响应有关？ => 变量选择
预测变量与响应之间的关系的本质是什么？ => 模型选择

在某些情况下，我们对预测和推断都感兴趣。

参考

https://www2.cisl.ucar.edu/events/summer-school/ai4ess/2020/artificial-intelligence-earth-system-science-ai4ess-summer-school

https://github.com/NCAR/ai4ess-hackathon-2020