python - 在 Python 中从 PDF 文件中提取文本并保留原始布局
问题描述
我想从 PDF 文件中提取文本,但应保持 PDF 中文本的布局,如下图所示。图像显示来自[github.com/JonathanLink/PDFLayoutTextStripper]的结果。 我尝试了下面的代码,但它不维护布局。我希望通过使用任何 Python 库(如 PyPDF2、PDFPlumber、PDFminer 等)以与图像中显示的方式完全相同的方式获得结果。我尝试了所有这些库,但没有得到想要的结果。在从 PDF 文件中提取文本时,我需要帮助,如图所示。
from pdfminer.high_level import extract_text`
text = extract_text('test.pdf')
print(text)
解决方案
您可以使用 PDFtotext 包保留布局/缩进。
import pdftotext
with open("target_file.pdf", "rb") as f:
pdf = pdftotext.PDF(f)
# All pages
for text in pdf:
print(text)
推荐阅读
- java - 强制转换的字符值无效
- reactjs - 如果从 redux 存储中获取的数据为空,则显示消息,显示未找到数据,否则使用 loader 显示数据
- javascript - 从浏览器导航栏检测页面变化
- javascript - rxjs,如何合并多个请求,并行请求中的一个串行请求,得到一个结果
- tensorflow2.0 - ValueError:形状 (1, 107, 3) 和 (1, 107, 2) 不兼容
- unity3d - 为什么我在测试游戏时会崩溃?
- javascript - 无法在 JavaScript 中读取 SVG 元素
- tinymce - TinyMCE file_picker_callback 选择已上传图片的图片服务器目录
- wordpress - WordPress 禁用了古腾堡块,但缺少可重复使用的块
- maven - sonar-maven-plugin:如何在包含模式中使用项目相对路径?