java - 根据坐标或tessaract提取图像数据并将内容写入docs/docx word文件
问题描述
我有图像。想使用 python 将具有相同布局的图像数据提取到 docx 文件中并以可读形式。我尝试在图像上应用 tessaract 并使用 pyteesaract 转换为 pdf 然后将 pdf 转换为 word 文件但我无法维护布局和格式。
解决方案
这个问题已经在这里回答过。您可以使用 pdf2image 库来解决此问题:
from pdf2image import convert_from_path
pages = convert_from_path('sample.pdf', 400) //400 is the Image quality in DPI (default 200)
pages[0].save("sample.png")
推荐阅读
- zsh - zsh 无法将历史保存到 .zhistory
- python - 为什么 Python 在覆盖文件时会在文件开头添加不必要的字符?
- android - getResources().getStringArray 发生本机崩溃
- postgresql - 从 PostgreSQL 中的多个查询结果创建计算的枢轴
- html - 文本上的渐变叠加
- javascript - 如何在 Winstonjs 记录器中记录 Unhandled TimeoutError?
- python - / 字符串索引处的 TypeError 必须是整数
- android - 如何使用已知的屏幕密码自动解锁手机?
- sql-server - 表上的自动索引
- sharepoint-2013 - 使用 CSOM 的 SharePoint Office365 登录问题