用SVM对手写字母进行分类

SVM 可用于离散因变量的分类和连续因变量的预测,相对于单一的分类算法(Logistic、决策树、KNN。朴素贝叶斯等)有更好的预测准确率,因为它可以将低维线性不可分的空间转换为高维的线性可分空间。

基础思想:支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。

主要思想是利用某些支持向量所构成的“超平面”,将不同类别的样本点划分,无论样本点线性可分、近似线性可分或者非线性可分,都可以利用“超平面”将样本点以较高的准确度切割开来。

显著优点:鲁棒性(增加或删除非支持向量的样本点,不会改变分类器的效果)
避免”维度灾难“的发生(模型不会随数据维度提升而提高计算的复杂度)
避免过拟合,具有很好地泛化能力
解决小样本下机器学习问题;
解决非线性问题;
无局部极小值问题(相对于神经网络等算法);

明显缺点:模型不适合大样本的分类或预测,内存消耗大,会消耗大量的计算资源和
时间
对缺失样本很敏感,建模之前清洗好,logistic Regression(逻辑回归)
也对缺失值敏感
对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类
问题;
是黑盒模型,对计算得到的结果无法解释
对于核函数的高维映射解释力不强,尤其是径向基函数;

应用领域:文本分类、图像识别、主要二分类领域。

分隔带越宽,模型能将样本点划分的越清晰,模型泛化能力越强,分类可信度越高。
SVM就是在努力寻找这个最宽的“带”。

此数据集是当一个用户在设备中写入某个字母时,该设备需要准确地识别并返回写入字母的实际值,即根据字母的信息(宽度,高度,边际)判断属于哪一种字母。

因为模型涉及到惩罚系数C(松弛因子的系数)的影响,因此采用交叉验证的方法。

# 导入第三方模块
from sklearn import svm
import pandas as pd
from sklearn import model_selection
from sklearn import metrics
# 读取外部数据
letters = pd.read_csv(r'F:\letterdata.csv')
# 数据前5行
letters.head()

第一列letter为因变量

# 将数据拆分为训练集和测试集
predictors = letters.columns[1:]
X_train,X_test,y_train,y_test = model_selection.train_test_split(letters[predictors], letters.letter, 
                                                                 test_size = 0.25, random_state = 1234)
# 使用网格搜索法,选择线性可分SVM“类”中的最佳C值
C=[0.05,0.1,0.5,1,2,5]
parameters = {'C':C}
parameters
grid_linear_svc = model_selection.GridSearchCV(estimator = svm.LinearSVC(),param_grid =parameters,scoring='accuracy',cv=5,verbose =1)
grid_linear_svc
# 模型在训练数据集上的拟合
grid_linear_svc.fit(X_train,y_train)
# 返回交叉验证后的最佳参数值
grid_linear_svc.best_params_, grid_linear_svc.best_score_
# 模型在测试集上的预测
pred_ linear_svc = grid_linear_svc.predict(X_test)
# 模型的预测准确率
metrics.accuracy_score(y_test, pred_linear_svc)

经过5重交叉验证,最佳惩罚系数为0.1,在训练数据集上的平均准确率只有69.2%,在测试数据集上的预测准确率也不足72%,说明线性可分SVM模型不太适合改数据集的拟合和预测,使用非线性SVM重新建模。

# 使用网格搜索法,选择非线性SVM“类”中的最佳C值
kernel=['rbf','linear','poly','sigmoid']
C=[0.1,0.5,1,2,5]
parameters = {'kernel':kernel,'C':C}
grid_svc = model_selection.GridSearchCV(estimator = svm.SVC(),param_grid =parameters,scoring='accuracy',cv=5,verbose =1)
# 模型在训练数据集上的拟合
grid_svc.fit(X_train,y_train)
# 返回交叉验证后的最佳参数值
grid_svc.best_params_, grid_svc.best_score_
# 模型在测试集上的预测
pred_svc = grid_svc.predict(X_test)
# 模型的预测准确率
metrics.accuracy_score(y_test,pred_svc)

经过5重交叉验证,最佳惩罚系数C为5,最佳核函数为径向基核函数,平均准确率分别为97.34%,97.86%,说明非线性SVM模型更加理想。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,544评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,430评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,764评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,193评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,216评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,182评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,063评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,917评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,329评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,543评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,722评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,425评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,019评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,671评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,825评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,729评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,614评论 2 353

推荐阅读更多精彩内容

  • 机器学习是做NLP和计算机视觉这类应用算法的基础,虽然现在深度学习模型大行其道,但是懂一些传统算法的原理和它们之间...
    城市中迷途小书童阅读 1,104评论 0 11
  • 霞 雨后出现不知明的云 逃离后是无尽的追悔 当下或是最好的挣脱 若干年常清晰的回忆 光 黑暗中总有一丝亮点 桃花后...
    瑕读书吧阅读 142评论 1 0
  • 风扇呼哧呼哧放弃了嘶哑 雷雨终于落下 雨后把所有清凉放纵 叶枯黄着放下夏的挣扎 南北的路在翻腾的云下静默 西风无有...
    有只白色的jio阅读 247评论 1 5
  • 个人工作总结 在忙忙碌碌中学期接近了尾声,回顾这学期来的工作,可以用"紧张忙碌"四个字来形容,真是有喜有忧。幼儿教...
    八一胡阅读 208评论 0 0
  • “本文参加# 印象青农,萌有感受#活动,本文承诺,文章内容为原创,且未在其他平台发表过” “宝剑锋从磨砺出,梅花...
    尼古拉斯康迪阅读 343评论 1 4