经验风险最小化 ERM Empirical Risk Minization

经验风险最小化(ERM)的核心思想是，用已知推测未知。我们不能确切地知道一个算法在实践中的效果如何(the true "risk") ，因为我们不知道该算法将要处理的总体的真实分布，但我们可以用一组已知的训练数据(the "empirical" risk)来衡量其性能。

例子：
我们希望建立一个模型，可以根据特定特征区分男性和女性。如果我们随机选择 150 个非常矮的女性和非常高的男性，那么模型可能会错误地假设身高是区分特征。为了建立一个真正准确的模型，我们必须收集世界上所有的女性和男性来提取差异化特征。但这是不可能的！所以我们选择了一小部分人，希望这个样本能代表整个人群。

经验风险最小化（ERM）是统计学习理论中的一个原则，它定义了一系列学习算法，并用于给出其性能的理论界限。这个想法是我们不知道算法在实践中的效果如何（真正的“风险”），因为我们不知道该算法将处理总体（population）的真实分布，但作为替代方案，我们可以在样本（sample）即：训练数据 training set 上估计其性能。

图片来源：https://consultglp.com/wp-content/uploads/2017/10/Population-and-Sample-Chinese-version.pdf

我们假设我们的样本来自这个分布，并使用我们的数据集作为近似值。如果我们使用数据集中的数据点计算损失，则称为经验风险。这是“经验的”而不是“真实的”，因为我们使用的数据集是整个人口的一个子集。

当我们的学习模型建立时，我们必须选择一个函数来最小化经验风险，即数据集中数据点的预测输出和实际输出之间的增量。找到此函数的过程称为经验风险最小化 (ERM)。我们希望将真正的风险降到最低。

我们没有可以让我们实现这一目标的信息，因此我们希望这种经验风险与真正的经验风险几乎相同。

Reference
What is ERM (Empirical Risk Minimization)?
笔记斯坦福机器学习第九讲经验风险最小化
 经验风险最小化

出错请指正

经验风险最小化 ERM Empirical Risk Minization

推荐阅读更多精彩内容