经验风险最小化(ERM)的核心思想是,用已知推测未知。我们不能确切地知道一个算法在实践中的效果如何(the true "risk") ,因为我们不知道该算法将要处理的总体的真实分布,但我们可以用一组已知的训练数据(the "empirical" risk)来衡量其性能。
例子:
我们希望建立一个模型,可以根据特定特征区分男性和女性。如果我们随机选择 150 个非常矮的女性和非常高的男性,那么模型可能会错误地假设身高是区分特征。为了建立一个真正准确的模型,我们必须收集世界上所有的女性和男性来提取差异化特征。但这是不可能的!所以我们选择了一小部分人,希望这个样本能代表整个人群。
经验风险最小化(ERM)是统计学习理论中的一个原则,它定义了一系列学习算法,并用于给出其性能的理论界限。这个想法是我们不知道算法在实践中的效果如何(真正的“风险”),因为我们不知道该算法将处理 总体(population)的真实分布,但作为替代方案,我们可以在样本(sample)即:训练数据 training set 上估计其性能。
我们假设我们的样本来自这个分布,并使用我们的数据集作为近似值。如果我们使用数据集中的数据点计算损失,则称为经验风险。这是“经验的”而不是“真实的”,因为我们使用的数据集是整个人口的一个子集。
当我们的学习模型建立时,我们必须选择一个函数来最小化经验风险,即数据集中数据点的预测输出和实际输出之间的增量。找到此函数的过程称为经验风险最小化 (ERM)。我们希望将真正的风险降到最低。
我们没有可以让我们实现这一目标的信息,因此我们希望这种经验风险与真正的经验风险几乎相同。
Reference
What is ERM (Empirical Risk Minimization)?
笔记 斯坦福机器学习第九讲 经验风险最小化
经验风险最小化
出错请指正