基于Python手写拼音识别

 更新时间:2022年01月26日 17:11:07   作者:newlw    
这篇文章主要介绍了基于Python手写拼音识别,因项目组需要使用到拼写识别,考虑到每个字母的复杂度不高,所以使用KNN算法来尝试实现,下面来看看具体实现详情吧,需要的小伙伴也可以参考一下

一、算法构造

1.简单介绍一下knn算法

KNN算法,也叫K最近邻算法。功能是分类。算法逻辑非常简单,说直白点就是:先找到跟你最近的k个邻居(假设k=5),再看你的邻居给哪个类别投票(即邻居的标签),少数服从多数,得票最多的结果就是你的类别。

在这个算法中最关键的三点:

k值 :选择距离最近的k个邻居。
距离计算:计算距离的方法有欧式距离和曼哈顿距离,本文采用欧式距离,即先求差值的平方和,再开根号。
分类标签:本文的分类标签即a,b,c,d等字母

2.Python实现KNN

'''
k:k值
testdata:测试数据集
traindata:训练数据集
labels:分类标签
'''

def knn(k, testdata, traindata, labels):
    '''定义算法'''
    traindatasize = traindata.shape[0] #计算训练集的长度
    dif = tile(testdata,(traindatasize,1)) - traindata #将测试集扩展至训练集的长度,再求差值
    sqrdif = dif**2 #求差值的平方
    sumsqrdif = sqrdif.sum(axis=1) #求平方和
    distance = sumsqrdif**0.5 #再开根号,即所有的距离
    sorted_distance = distance.argsort() #对距离进行排序,返回排序后的索引
    count = {} #准备一个空字典,存放投票结果
    for i in range(0,k):  
        vote = labels[sorted_distance[i]] #提取索引多对应的标签值作为字典的key
        count[vote] = count.get(vote,0)+1  #票数作为字典的value
    sorted_count = sorted(count.items(),key=lambda x:x[1],reverse=True) #对最后的投票结果进行排序
    return sorted_count[0][0] #返回得票最多的标签

二、准备数据

用最笨的方法,手写了一批png格式的数字图片:

图片的尺寸都是统一的:32*32像素
图片的命名也是统一的:数字标签+"_"+第n张图+“.png"

1、将图片转换成数组矩阵

训练数据集与测试数据集都是标准化后的数组矩阵,而我们的试验对象是手写体数字图片,首先需要将图片进行一下数据化处理。

def img2Model(originDataPath, modelpath):
    list = os.listdir(originDataPath)
    for child in list:
        s_list = os.listdir(originDataPath + child)
        for i in s_list:

            filepath=originDataPath + child + '/' + i
            # print(filepath)
            img = cv2.imdecode(np.fromfile(filepath, dtype=np.uint8),0)
            img = cv2.resize(img, (32, 32))
            img = np.asarray(img)
            img[img > 127] = 255
            img[img <= 127] = 1
            img[img == 255] = 0
            dstFileName = modelPath + i.split('.')[0] + '.txt'
            np.savetxt(dstFileName, img, fmt='%d', delimiter=' ')

三、处理数据:训练集与测试集

1、区分训练集和测试集

# 随机分拣出测试集,其他文件为训练集
def shutildata(modelpath, trainpath, testpath):
    txtlist = os.listdir(modelpath)
    index = [random.randint(0, len(txtlist)) for i in range(10)]
    # print(index)
    arr = [txtlist[i].split('.')[0].split("_")[1] for i in index]
    for i in txtlist:
        try:
            if i.split(".")[0].split("_")[1] in arr:
                shutil.copy(modelpath + "/" + i, testpath)
            else:
                shutil.copy(modelpath + "/" + i, trainpath)
        except:
            pass

2、加载数据

# 加载数据

def load_data(dataFilePath):
    arr = np.loadtxt(dataFilePath, dtype=np.int)
    arr = arr.flatten()
    return arr

3、建立训练数据

# 建立训练数据集
def makeTrainData(trainpath):
    labels = []
    trainfile = os.listdir(trainpath)

    trainarr = np.zeros((len(trainfile), 1024))
    for i in range(0, len(trainfile)):
        # print(trainfile[i])
        thislabel = trainfile[i].split(".")[0].split("_")[0]

        if len(thislabel) != 0:
            labels.append(int(thislabel))
        trainarr[i, :] = load_data(trainpath + trainfile[i])
    return trainarr, labels

四、测试数据

# 验证
def validate(testpath, trainpath, k):
    trainarr, labels = makeTrainData(trainpath)
    testfiles = os.listdir(testpath)
    count = 0

    # 读取字典表
    with open('num_char.json', 'r') as f:
        dict = json.loads(f.read())
        # print(dict)

    for i in range(0, len(testfiles)):
        testpicname = testfiles[i].split("_")[0]
        testarr = load_data(testpath + testfiles[i])
        result = knn(k, testarr, trainarr, labels)

        testpicname = dict[str(testpicname)]
        result = dict[str(result)]

        print("真正字母:"+testfiles[i] +"  " + testpicname + "  " + "测试结果为:{}".format(result))
        if str(testpicname) == str(result):
            count += 1
    print("-----------------------------")
    print("测试集为:{}个,其中正确了{}个".format(len(testfiles),count))
    print("正确率为{}".format(count / len(testfiles)))
    print()

到此这篇关于基于Python手写拼音识别的文章就介绍到这了,更多相关Python手写拼音识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python 下载文件的几种方法汇总

    python 下载文件的几种方法汇总

    这篇文章主要介绍了python 下载文件的几种方法汇总,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2021-01-01
  • Python流程控制if条件选择与for循环

    Python流程控制if条件选择与for循环

    这篇文章主要介绍了Python流程控制if条件选择与for循环,文章围绕主题展开详细的内容介绍,具有一定的参考价值,需要的朋友可以参考一下
    2022-07-07
  • Python Pandas数据结构简单介绍

    Python Pandas数据结构简单介绍

    这篇文章主要介绍了Python Pandas数据结构简单介绍的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • 解决python给列表里添加字典时被最后一个覆盖的问题

    解决python给列表里添加字典时被最后一个覆盖的问题

    今天小编就为大家分享一篇解决python给列表里添加字典时被最后一个覆盖的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-01-01
  • Python编程实现二叉树及七种遍历方法详解

    Python编程实现二叉树及七种遍历方法详解

    这篇文章主要介绍了Python编程实现二叉树及七种遍历方法,结合实例形式详细分析了Python二叉树的定义及常用遍历操作技巧,需要的朋友可以参考下
    2017-06-06
  • 解决Python二维数组赋值问题

    解决Python二维数组赋值问题

    今天小编就为大家分享一篇解决Python二维数组赋值问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11
  • wxpython实现图书管理系统

    wxpython实现图书管理系统

    这篇文章主要为大家详细介绍了wxpython实现图书管理系统,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-03-03
  • Python遍历文件夹和读写文件的实现代码

    Python遍历文件夹和读写文件的实现代码

    这篇文章主要介绍了Python遍历文件夹和读写文件的实现代码,需要的朋友可以参考下
    2016-08-08
  • 如何使用repr调试python程序

    如何使用repr调试python程序

    这篇文章主要介绍了如何使用repr调试python程序,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-02-02
  • django使用定时任务django_apscheduler的实现

    django使用定时任务django_apscheduler的实现

    定时任务无论是个人开发还是企业业务都是需要的,本文主要介绍了django使用定时任务django_apscheduler的实现,减少请求时需要用户等待的时间,感兴趣的可以了解一下
    2021-08-08

最新评论