java - 提取的 pdf 文本未显示在控制台中
问题描述
我正在尝试使用 Tabula 提取 pdf 文本。但是代码没有错误,但是当我运行提取的 pdf 文本时,控制台中没有显示。有人能帮忙吗。
我一直在使用 PDFBox,在做了一些研究之后,我发现 tabula 是新的并想尝试一下。
File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1) //1st page
TextStripper textStripper = new TextStripper(document,1);
System.out.println(textStripper.getText(document));
output of pdf text
解决方案
您没有使用 page 变量。试试下面的代码。
File file = new File(pdfFilePath);
PDDocument document = PDDocument.load(file);
ObjectExtractor oe = new ObjectExtractor(document);
Page page = oe.extract(1); // 1st page
for (TextElement textElement: page.getText()) {
System.out.print(textElement.getText());
}
推荐阅读
- bash - linux命令行单引号转义问题
- r - 传单 R 中具有不同形状和颜色的自定义标记
- android - Android 上带有图像的 FCM 通知
- jmeter - 在 Jmeter 中使用 JsonExtractor 值
- react-native - 怎么设置全屏
何时嵌入 youtube 网址? - java - React to console inputs (commands) - how to handle multiple options most efficient?
- mysql - The MySQL query return an empty set
- android - 我想在 firebase android 的帮助下上传图片和文本?
- php - 如何使用 PHP 检查 s3 客户端的响应?
- powershell - Remove blank lines in Out-File .txt generated with powershell