首页 > 解决方案 > Adobe Acrobat“另存为文本”解析器

问题描述

我正在尝试将 PDF 转换为文本以进行解析,并且遇到了结构复杂的 PDF 的问题,例如以下示例学生援助报告: 样本文件您可以假设我的 PDF 是文本编码的。

使用 Apache Tika/PDFBox 和 Norconex Importer(依赖于 Apache 库)解析返回以下内容:

1. Last Name 2. First Name 3. Middle Initial
4. Mailing Address
5. City 6. State Abbreviation 7. ZIP Code
8. Social Security Number 9. Date of Birth 10. Your telephone number
11. Driver's License Number
12. Driver's License State Abbreviation
13. Student's E-mail Address
...[header/footer text]...
SMITH JOHN J
Processed: 04/22/2019
742 EVERGREEN TERRACE
SPRINGFIELD
XXX-XX-4444
JOHNSMITH@HOTMAIL.COM

这很难解析,因为成对的键和值被其他键/值或垃圾文本分隔。但是,使用 Adob​​e Acrobat 的另存为文本选项,我得到以下信息:

1.Last Name
SMITH
16-character answer box for question 1
2.First Name
JOHN
12-character answer box for question 2
3.Middle Initial
J
1-character answer box for question 3 
4.Mailing Address
742 EVERGREEN TERRACE
35-character answer box for question 4 
5.City
SPRINGFIELD
16-character answer box for question 5 

我猜 Adob​​e Acrobat 有一个隐式字典结构,用于将字段映射到答案框,但是有没有保留这种结构的文档阅读库?或者有没有办法配置 Apache 或 Norconex 库来处理这个问题?任何意见,将不胜感激。

标签: javapdfadobepdfboxacrobat

解决方案


推荐阅读