Task01——概览西瓜书+南瓜书1、2章】
第一章 绪论
这一章一开始是介绍机器学习的定义(利用计算机学习经验数据并生成一个算法模型)、基本术语(样本及其分类,问题的分类等等)。
第二章 模型的评估与选择
在模型的评估与选择中,理解了误差的分类。我们希望得到的是在新样本上表现得很好的学习器,即泛化误差小的学习器。学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了,称为过拟合;而学习能太差,训练样本的一般性质尚未学好,则称为欠拟合。
训练集与测试集的划分方法则包括留出法、交叉验证法、自助法等等。
性能度量方面最重要的就是查准率(Precision)和查全率(recall)以及二元混淆矩阵的定义。
PR曲线如下图所示:
若一个学习器A的P-R曲线被另一个学习器B的P-R曲线完全包住,则称:B的性能优于A。若A和B的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。但一般来说,曲线下的面积是很难进行估算的,所以衍生出了“平衡点”(Break-EventPoint,简称BEP),即当P=R时的取值,平衡点的取值越高,性能更优。