首页 > 解决方案 > 根据坐标或tessaract提取图像数据并将内容写入docs/docx word文件

问题描述

我有图像。想使用 python 将具有相同布局的图像数据提取到 docx 文件中并以可读形式。我尝试在图像上应用 tessaract 并使用 pyteesaract 转换为 pdf 然后将 pdf 转换为 word 文件但我无法维护布局和格式。

标签: javapythonmachine-learningimage-processing

解决方案


这个问题已经在这里回答过。您可以使用 pdf2image 库来解决此问题:

from pdf2image import convert_from_path

pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)

pages[0].save("sample.png")

推荐阅读