python - Python手写文本提取
问题描述
我需要从图像文件中提取一些文本,但手写信息效果不佳。它写在我用适当的扫描仪扫描回来的打印纸上
手写信息遵循某种模式,并且在大多数情况下位于空白区域且大小合适
我试过的:
- tesseract 的不同语言(eng_best、eng_fast、por_best、por_fast)
- 阅读前的不同图像处理(灰度、模糊和许多其他人的食谱)
- 颜色阈值以隔离蓝色(我尝试过的范围均无效)
- 用 gimp 擦除打印的文本以隔离书面内容(仍然 tesseract 无法高效)
- cv2.matchTemplate 查找数据的索引并映射它
我的想法不多了
解决方案
您可以通过使用 TensorFlow、OpenCV 和 Keras 来利用 OCR。查看本教程:https ://www.pyimagesearch.com/2020/08/24/ocr-handwriting-recognition-with-opencv-keras-and-tensorflow/
以下是一些用于图像比较和学习的基础图像:http: //yann.lecun.com/exdb/mnist/
他们有一个很好的细分,这可能会帮助您理解!
推荐阅读
- c++ - 实现自定义 Postgres 索引作为扩展
- django - TemplateDoesNotExist 在 / 但文件系统加载器说它确实 | 发生在扩展标签中
- css - 如何更改我网站的“google-icons”的颜色
- javascript - 如何用 Jest 模拟封装的依赖项?
- python - 如何在python中使用for循环创建多个空变量?
- reactjs - 使用 react-three-fiber 增加线框厚度
- reactjs - 类型错误:theme.spacing 不是函数
- android - Jetpack Compose TextField 模糊事件
- angular - 角度错误 NG8002:无法绑定到“formGroup”,因为它不是“form”的已知属性
- javascript - 删除提及(discord.js 12.5.3)