原文章为scikit-learn中"用户指南"-->"监督学习的第四节:Support Vector Machines"######
支持向量机(Support vector machines ,SVMs)是一组用于 分类问题,回归问题 与 异常值监测 的监督学习方法。
其优点在于:
- 能够有效的应对高维空间内的数据
- 在维度数量远大于样本数量的情况下也依旧高效
- 在决策函数内使用训练样本的子样本来进行预测(这个也称为支持向量),这一点能够有效的减少内存的使用
- 多样化:能够在决策函数内指定各种不同的 核函数 ,在该类里已经提供了一些常见的核,不过也允许手动指派自定义的核函数。
而它的缺点则有:
- 如果特征的数量比样本数量要大,那训练后的结果可能会很糟糕。
- 不直接提供概率估计,(如果)需要的话则要使用很耗费性能的五层交叉验证来进行计算。(可以参考下方的 分数与概率 )
在 Scikit-Learn 里的支持向量机同时支持密集(numpy.ndarray类型的数组,可以使用numpy.asarray函数进行转换)与稀疏(任何scipy.sparse类型的数组)的样本输入向量。不过想要在稀疏数据上取的更好的效果,最好是先对数据再进行额外的处理,最好是使用C-排序的numpy.ndarray(密集数据)或** scipy.sparse.csr_matrix **(稀疏数据)
(在尝试翻译这篇文档的时候难免会因为各种问题而出现错翻,如果发现的话,烦请指出,谢谢> <)