k-近邻算法构建手写识别系统

姓名:刘强
【嵌牛导读】
手写识别是计算机视觉的一个研究方向,可以看成是一个分类问题。机器学习的任务,便是解决分类(有监督学习)、聚类(无监督学习)和回归(强化学习)问题。k-近邻算法(简称kNN)是最简单的有监督学习算法,本文介绍了如何用k-近邻算法构建一个手写识别系统,并附上其python实现。
【嵌牛鼻子】
k-近邻算法 机器学习 分类 手写识别
【嵌牛提问】
k-近邻算法是什么? 如何构建一个手写识别系统?
【嵌牛正文】

k近邻算法基本思想

存在一个样本数据集,称为训练集,训练集中每个数据都存在标签(标签即数据所属的类别,从这一点可以看出,k近邻算法属于有监督学习)。对于不知道标签的新数据,将新数据的每个特征与训练集中数据对应的特征相比较,选出训练集中前k个最相似的数据(这就是k-近邻算法名称中k的出处),然后对这k个数据做统计,选择出现次数最多的标签作为新数据的标签(即k-近邻算法的输出)。
从其基本思想可以看出,k-近邻算法用于解决分类问题。所谓近邻,其实是用数据之间的欧氏距离来衡量它们的相似程度,距离越短,表示两个数据越相似。

图片来源于知乎

构建手写识别系统

需求分析

很多输入法都支持手写输入,实现手写输入通常的做法是把手写的结果生成图片,进行图像识别。我们知道,图片可以用矩阵表示,对于单通道的灰度图像,假如分辨率为32X32,则可以用一个32X32的矩阵表示,矩阵中的每个元素表示图片中该位置的像素,元素的值为0~255之间的灰度值。
而对于手写图片,表示方法则更加简单,因为手写图片是只有黑白两色的二值图像,利用图像处理软件,黑色的位置写1,白色背景写0,将其转成文本文件,如下图所示:

手写图片转成的文本文件

虽然这样表示不能有效利用内存空间(本来0/1只需占据1bit的空间,但是变成字符“0”,“1”之后需要用char类型所占的字节数),但是对于图像到矩阵的转换这一过程非常直观,方便演示。
我们的目标是:将这样的一幅“图像”输入我们的系统,我们能够输出“图像”中所显示的数字(只做数字0~9的识别)。

系统组成

我们的手写识别系统由以下部分组成:

  • 已知标签的训练集
  • 文件输入输出模块
  • kNN算法模块
已知标签的训练集

点此下载:用到的数据及源代码
其中,trainingDigits文件夹中存放的是用作训练集的的图片,其中包含了1934个训练样本,testDigits文件夹中存放的是用作测试集的图片,其中包含了946个测试样本。每个文件的文件名中含有它的标签。

文件输入输出模块

python读文本文件相当简单,为了迎合后续的kNN算法,我们不把图像表示成32X32的矩阵形式,而是将其转化成1X1024的向量,为此我们定义一个img2vector函数:

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect
kNN算法模块

根据上述对kNN算法的描述,kNN算法有如下步骤:

  • 测试数据与训练集中的每个数据进行比较,以这两个数据间的欧氏距离作为测试数据和训练数据间的相似性度量
  • 将算出的欧式距离列表从小到大排序,取前k名所对应的训练集中的数据
  • 取出这k个数据的标签,对数目进行统计,出现次数最多的标签作为算法的输出,即分类的结果
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
系统整体代码
'''
kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)
            
Output:     the most popular class label
'''
from numpy import *
import operator
from os import listdir

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]
    
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')           #load the training set
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)
    testFileList = listdir('testDigits')        #iterate through the test set
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]     #take off .txt
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
        classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
        print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
        if (classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is: %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

系统测试

测试环境
  • win10 64位
  • python3.6.2
测试步骤
    1. 打开cmd,进入kNN.py所在的文件夹
    1. 输入python进入python shell
    1. 输入from kNN import *导入kNN模块中所有函数
    1. 输入handwritingClassTest(),回车
测试结果
测试结果

从测试结果来看,1.0571%的错误率,准确度还是蛮高的……

增加训练集的样本容量能有效提高系统的准确度,但是同时增加了运算量,使计算耗时增加。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,487评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,621评论 2 374
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,611评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,659评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,509评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,380评论 1 274
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,799评论 3 387
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,443评论 0 255
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,739评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,781评论 2 314
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,554评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,400评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,811评论 3 300
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,043评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,330评论 1 253
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,775评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,978评论 2 337

推荐阅读更多精彩内容