首页 > 解决方案 > Python sklearn OCR 用于带有特殊字符(✔ 和 ✗)的调查答案

问题描述

我有几千张图片格式为https://imgur.com/7yjiW1N,我正在寻找一种方法将其转换为一个简单的表格,其中 ✓ = 1、- = 0 和 ✗ = - 1.

我尝试了像 Adob​​e 这样的文本识别软件,但没有成功。现在我正在考虑使用 sklearn Python 模块。到目前为止,我已经设法将图像加载到 Python 中并将其转换为 numpy 数组,我上传了一些正确的结果并将其也转换为数组(看起来像这样:)[['0', '1', '1'], ['-1', '1', '1'], ... , ['0', '1', '1']]

import csv
from PIL import Image
import numpy
im = Image.open("training_image.png")
training_data = numpy.array(im)
with open('correct_results.csv', 'rb') as f:
    correct_results = list(csv.reader(f))

就我所见,sklearn 过程似乎总是以同样的方式进行:

#Import a model: 
model=some_model()

#train it: 
model.fit(training_data,correct_results)

#predict:  
predicted_results=model.predict(new_input_data)

现在我想知道,如何将这个 numpy 数组转换为 model.fit 可以使用的形式,我可以使用哪个模型?到目前为止,我的研究还没有成功。

标签: pythonscikit-learnpython-imaging-libraryocr

解决方案


推荐阅读