java - Adobe Acrobat“另存为文本”解析器
问题描述
我正在尝试将 PDF 转换为文本以进行解析,并且遇到了结构复杂的 PDF 的问题,例如以下示例学生援助报告: 您可以假设我的 PDF 是文本编码的。
使用 Apache Tika/PDFBox 和 Norconex Importer(依赖于 Apache 库)解析返回以下内容:
1. Last Name 2. First Name 3. Middle Initial
4. Mailing Address
5. City 6. State Abbreviation 7. ZIP Code
8. Social Security Number 9. Date of Birth 10. Your telephone number
11. Driver's License Number
12. Driver's License State Abbreviation
13. Student's E-mail Address
...[header/footer text]...
SMITH JOHN J
Processed: 04/22/2019
742 EVERGREEN TERRACE
SPRINGFIELD
XXX-XX-4444
JOHNSMITH@HOTMAIL.COM
这很难解析,因为成对的键和值被其他键/值或垃圾文本分隔。但是,使用 Adobe Acrobat 的另存为文本选项,我得到以下信息:
1.Last Name
SMITH
16-character answer box for question 1
2.First Name
JOHN
12-character answer box for question 2
3.Middle Initial
J
1-character answer box for question 3
4.Mailing Address
742 EVERGREEN TERRACE
35-character answer box for question 4
5.City
SPRINGFIELD
16-character answer box for question 5
我猜 Adobe Acrobat 有一个隐式字典结构,用于将字段映射到答案框,但是有没有保留这种结构的文档阅读库?或者有没有办法配置 Apache 或 Norconex 库来处理这个问题?任何意见,将不胜感激。
解决方案
推荐阅读
- swift - 圆角tableview标题swift
- javascript - Vuex 数据获取:如何在不同的组件中等待数据
- javascript - 在对象数组内连接对象数组
- c++ - 使用 lock_guard 同时从多个线程访问同一对象时出现问题
- api-gateway - 如何从 azure 应用程序网关重写 url 中删除 url 的截断部分
- javascript - 在 woocommerce_product_query 之后,Woocommerce 在商店中隐藏空过滤器
- ios - 使用 Swift 包管理器时如何访问包
- sql - 创建查询以获取总和
- postgresql - 在 PostgreSQL 中:致命:无法访问文件“anon”,没有这样的文件或目录错误
- python - 为什么第 100 个序列后第 n 项的斐波那契数列需要更多时间在 Python 中执行?