java-8 - 文本剥离器停止并等待
问题描述
我正在尝试从 pdf 文件中提取文本,以便使用 Lucene 对其进行索引。这是代码:
PDFParser parser = new PDFParser(new FileInputStream(f));
parser.parse();
String text = new PDFTextStripper().getText(parser.getPDDocument()); // stops here
parser.getPDDocument().close();
执行在注释中指示的行开始无限期地等待。我确信上一行已经被执行了。
我正在使用 pdfbox 1.8 版。
有谁能够帮我?
解决方案
首先,我使用了 2.0.17 版本(不是 1.8)的 PdfBox。
获取pdf文件中文本的正确代码如下:
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String content = stripper.getText(doc);
这行得通!
推荐阅读
- r - 将向量的最大值保留到R中的另一个向量中
- mysql - 为什么我在“日期”数据类型中出现错误?
- html - 从 R 的下拉菜单中获取所有每日油价
- javascript - 我如何在 Django 中发布没有表单的帖子
- java - 使用一对多映射映射的两个模型 java 但未使用所需列映射的数据
- mongodb - Pymongo:聚合所有没有一个字段并有另一个字段的文档 - 分组
- java - 隐式超级构造函数 Shape2D() 未定义。关于“包括 Java.awts.Color”
- mysql - 获得最快的 MySql 查询
- swift - Neo4j-Swift (Theo) 的依赖图解析问题
- kubernetes - Velero 备份:恢复 Statefulset(例如 couchbase)会导致“卷的多连接错误”