machine-learning - NLP:从 PDF 文件中提取特定领域的数据
问题描述
NLP 问题:我有一个 pdf 文件,其中包含一些需要提取的重要信息。其中一些在键值对中。. 例如,pdf 文件包含以下信息。
- 姓名:约翰威克先生
- 购买玩具:枪
价格:2,000 英镑
日期:XYZ
但是,并非所有文档都具有相同的键,例如在某些文档中可能是
- 商品价格:4,000 英镑
- 当前日期或购买日期:ABC
- 购买玩具等
提取这些数据的最佳方法是什么?
解决方案
推荐阅读
- hibernate - 具有复合键的 Spring Boot Jpa 自定义 Id 生成器
- javascript - 如何在与之关联的 CSS 和 JS 文件中访问我的 HTML 文件的动态生成的 ID
- python - Django Heroku,服务器不支持 SSL,但需要 SSL
- azure - 如何在 Azure 应用服务上为 ASP.NET Core 应用配置端口和路由?
- javascript - 尝试将 LastRow 中的单元格设置为 appendRow 之后的值
- python - 用于从字典中获取数据的 Python 高级技巧
- python - 从磁盘加载包含预训练 Keras 模型的 scikit-learn 管道
- python - 正则表达式中的 {1, } 是什么意思
- android - 我更新了 App ScreenShots 但它不在 Google Play 上直播?
- java - 升序合并排序到降序