首页 > 解决方案 > 文本剥离器停止并等待

问题描述

我正在尝试从 pdf 文件中提取文本,以便使用 Lucene 对其进行索引。这是代码:

PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument());   // stops here
parser.getPDDocument().close();

执行在注释中指示的行开始无限期地等待。我确信上一行已经被执行了。

我正在使用 pdfbox 1.8 版。

有谁能够帮我?

标签: java-8lucenepdfbox

解决方案


首先,我使用了 2.0.17 版本(不是 1.8)的 PdfBox。

获取pdf文件中文本的正确代码如下:

PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);

这行得通!


推荐阅读