机器学习导论chap 1
问题空间A
样本空间S(training_set,testing_set,valid_set)=attributes+label
样本数量N
使用training_set中的数据构造分类器(函数),再使用生成的分类器对testing_set中的数据进行分类,将分类结果与label比较,对分类器效果进行评价。
关于cross-validation,可以分为三种:
#1 simple cross-validation:一般将样本数据分为70%:30%。多的作为training_set,少的作为valid_set。(这里的valid_set我认为就是testing_set)
#2 k-fold cross-validation:将样本分为k等份,每次拿一份出来作valid_set,其余作为training_set,计算valid_set中预测结果和实际结果间的PRESS(predicted error sum of squares)(一般情况做10次10折交叉验证)
#3 留一(LOOCV):仅留下样本中的一条数据作为valid_set(类似于k=N)(可用于kernel regression,Tikhonov regularization)
在构造分类器时应该尽量满足所有training_set中的样本条件(95%以上)。实际上100%符合training_set的分类器(分类器空间是相当大的,如何在其中进行选择非常重要)有很多,但一般会有最优化的控制条件(模型复杂度等),并且由training_set构造的classifier并不一定能很好的分类testing_set或者valid_set(因为它们只总结了training_set中sample的特点)。
关于classifier的效果评价,可以使用准确率Accuracy=testing_set样本中判断正确的数量/testing_set样本总数
除此之外,显示数据还存在许多问题:不相关属性,冗余属性,缺失属性,噪声(系统噪声,人为噪声),?。
真正目的是要将我们得到的classifier进行应用,对A中的其他数据进行判断。(input为新数据的attributes,output为新数据的label)并且有时候会需要解释所得到的classifier中隐含的知识。