文章题目:基于SVM的多示例多标签主动学习
作者:李杰龙,肖燕珊,郝志峰,阮奕邦,张丽阳
来源:计算机工程与设计 2016年1月
文章主要内容
本文提出一种基于支持向量机最小分类距离的多示例多标签主动学习方法。
学习点
1、支持向量机SVM与主动学习相结合。
支持向量机SVM,基于统计学习理论,充分考虑结构风险的最小化的基础上发展起来的一种机器学习分类方法。
主动学习,能通过迭代抽样,寻找最有利于改善分类效果的样本,在现有的知识下,利用尽可能少的训练样本获得分类性能较高的分类器。
2、基于SVM最小分类距离的主动学习策略。
把分类器的训练过程看作一个循环迭代的过程,每次迭代通过计算多示例包距离每个分类器的超平面的距离和对分类器的可信度作为选择策略,从未标记多示例包中寻找最“有用”的多示例包进行标注,然后加入到训练集中,循环迭代,直到分类器达到某一精度或满足设定的循环次数时停止。
3、实验
数据:Corel图像数据集及Reuters文本数据集
评价指标:汉明损失,1-错误率、覆盖率,排序损失,平均精度。
汉明损失:该指标度量预测标签与样本实际标签之间的不一致程度,即样本的标签被错误分类的平均次数。
1-错误率:该指标主要度量在样本标签排序序列中,隶属度最高的标签不是样本正确标签的可能性。
覆盖率:该指标主要度量样本标签排序序列中,样本正确标签中隶属度最低的平均排名。
排序损失:该指标主要计算样本标签排序序列中,预测标签集与实际标签集rank排名被排错的平均次数。
平均精度:该指标主要计算标签排序序列中,实际分类标签在预测分类标签rank排序的平均值。
(1)Corel图像数据集
2000张自然场景图像,利用SBN的方法,每个图像被分割成若干个子区域,每个子区域用一个15维度的特征向量表示,每个子区域对象组成该图的示例包,每个包对应5个类别标签,沙漠、山、海、日落、树木。
随机选取若干个多示例包作为初始训练集,每次迭代选取1个示例包加入训练集重新训练分类器,迭代若干次后,停止,得到结果。
(2)Reuters文本数据集
2000个文本,即2000个示例包,7个标签类别。与(1)中,过程相同。