首页 > 技术文章 > KNN算法实现手写体区分

dddAndwerGuan 2018-02-28 15:13 原文

KNN算法在python里面可以使用pip install指令安装,我在实现之前查看过安装的KNN算法,十分全面,包括了对于手写体数据集的处理。我这里只是实现了基础的识别方法,能力有限,没有数据处理方法。

电脑太渣,没有自己训练数据集。

选取的数据集是已经处理好的。

 

 如果自己要手动处理数据集,推荐mnist的。自己要写算法处理成图片。

#! /usr/bin/env python
# -*- coding:utf-8 -*-
# Author: gjt

import numpy as npfrom os import listdir
from sklearn.neighbors import KNeighborsClassifier as knn

def img2vector(filename):
    returnVet = np.zeros((1,1024))
    fr = open(filename)

    for i in range(32):
        listStr = fr.readline()
        for j in range(32):
            returnVet[0,32*i+j] = int(listStr[j])
    return returnVet

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = np.zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        classNumber = int(fileNameStr.split('_')[0])
        hwLabels.append(classNumber)
        trainingMat[i, :] = img2vector('trainingDigits/%s' % (fileNameStr))
    neigh = knn(n_neighbors=3,algorithm='auto')
    neigh.fit(trainingMat,hwLabels)
    testFileList = listdir("testdigits")
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        classNumber = int(fileNameStr.split("_")[0])
        vectorUnderTest = img2vector('testDigits/%s'%(fileNameStr))
        classifierResult = neigh.predict(vectorUnderTest)
        print("分类返回结果%d\t真实结果%d" % (classifierResult, classNumber))
        if (classNumber != classifierResult):
            errorCount += 1.0
        print("总共错了%d个\t错误率为%f%%" % (errorCount, errorCount / mTest * 100))
if __name__ == "__main__":
    handwritingClassTest()

 

效果还是可观的。。。

参考《机器学习实战》

我们不生产代码,只是代码的搬运工。

。。。。。。。。。。。。。。。

推荐阅读