机器学习实战k近邻2-约会网站

        发布的代码都是经本人调试,在Python2.7上可以正常运行的。后面还会附带一些自己在写代码过程中遇到的问题。


#!/usr/bin/python

#-*- coding:UTF-8-*-

from numpyimport *

import operator

from osimport listdir

def classify0(inX, dataSet, labels, k):

dataSetSize = dataSet.shape[0]

diff = tile(inX, (dataSetSize,1))-dataSet

sqDiff = diff **2

    sqDistances = sqDiff.sum(axis=1)

Distance = sqDistances **0.5

    sortedDisIndices = Distance.argsort()

classCount = {}

for iin range(k):

voteLabel = labels[sortedDisIndices[i]]

classCount[voteLabel] =classCount.get(voteLabel,0)+1

    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse =True)

return sortedClassCount[0][0]

#将文本记录转换为Numpy的解析程序

def file2matrix(filename):

#从文件中读入训练集,并将其存储为矩阵形式

    fr =open(filename)

arrayOfLines = fr.readlines()

numberOfLines =len (arrayOfLines)#得到文件的行数

    returnMat = zeros((numberOfLines,3))

#创建一个2维矩阵用来存放训练样本数据集,每一行存放三个数据

    classLabelVector = []#创建一个一维数组用来存放训练样本的标签

    index =0              #这里的Index指的是第几行

    for linein arrayOfLines:

line = line.strip()#去掉文本尾部的换行符

        listFromLine = line.split('\t')#将每行数据按空格来分割

        # 以‘/t’来分割字符,文本中是以tab来分割的

        #split()返回一个List对象

            #returnMat[index, :] = listFromLine[0:3]

        returnMat[index, : ] = listFromLine[0:3]

#这里的index指的是returnMat这个矩阵的第几行

        #List[0]表示List矩阵的第一行

        #List[2,:]表示List矩阵中第三行的所有元素

        #List[2,0:2]表示List矩阵中第三行下标为0和1的两个元素,2表示结束不算在内

        classLabelVector.append(int(listFromLine[-1]))

#Python语言中可以使用索引值-1表示列表中的最后一个元素(这里就是标签),把它存储到LabelVector中

        #这里的int ,是因为必须要告诉解释器列表中存储的元素为整型,否则Python 就会按照字符串来处理

        index +=1

    return returnMat,classLabelVector

#关于数值的归一化: 简单来说,就是将所有的数据变为 0-1之间的数

def autoNorm(dataSet):

minVals = dataSet.min(0)

#min(0)是取列中的最小值;min(1)是取行中的最小值;max()同理

    maxVals = dataSet.max(0)

ranges = maxVals - minVals

normDataSet = zeros(shape(dataSet))#定义一个空的矩阵

    #shape(A)就是返回一个具有矩阵A 维度的矩阵

    m = dataSet.shape[0]#每一行元素的个数,即矩阵的列数

    normDataSet = dataSet - tile(minVals,(m,1))#tile(A,(m,1))先将矩阵A复制m行列保持不变

    normDataSet = normDataSet/tile(ranges,(m,1))

return normDataSet, ranges, minVals

#分类器测试代码

def datingClassTest():

hoRatio =0.1    #测试数据集所占的比例

    datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')

normMat, ranges, minVals = autoNorm(datingDataMat)

m = normMat.shape[0]#返回数据集的行数

    numTestVecs =int (m * hoRatio)#测试卷的数量

    errorCount =0.0

    for iin range(numTestVecs):#循环读取每行数据

        classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

#对每条数据进行分类

        print "the classifier came back with: %d, the real answer is %d" %(classifierResult, datingLabels[i])

if (classifierResult != datingLabels[i]):

errorCount +=1.0

        print "the total error rate is: %f" %(errorCount/float(numTestVecs))

print errorCount

#约会网站预测函数

def classifyperson():

    resultList =['not at all','in small doses','in large doses']

    percentPlay =float(raw_input("percentage of time spent playing video games?"))

    ffMovies =float(raw_input(("frequent flier miles earned per year")))

    iceCream =float(raw_input("liters of icecream consumed per year"))    

    datingDataMat,datingLabels = file2matrix("datingTestSet2.txt")

    normMat, ranges, minVals =autoNorm(datingDataMat)

    inArr =array([ffMovies, percentPlay, iceCream])#将输入数据写到数组中

    classifierResult = classify0((inArr - minVals)/ranges, normMat, datingLabels,3)

    #classifierResult = classify0(inArr , normMat, datingLabels, 3)

    print "You will probably like this person :", resultList[classifierResult -1]

if __name__ =="__main__":

    #datingClassTest()

    classifyperson()

----------------------------------------


problem1:    《机器学习实战》这本书上面有个小错误,datingDataSet.txt应该改为datingDataSet2.txt

problem2:    在将文本记录转换为Numpy的解析程序过程中,要注意:

            1)    line.strip() 截取掉所有的回车字符,然后使用tab字符\t将上一步得到的郑航数据分割成一个元素列表 (注意不少/t,这个错误我改了好久才发现)

            2)如果没有通知解释器,列表中存储的元素值是整型,Python语言会将这些元素当作字符串来处理

problem3:     classifyperson()函数中,datingTestSet2.txt要和problem1中的数据集一样

备注:需要datingDataSet.txt 等数据可以emal me at :susuxuer@163.com,欢迎技术交流

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容