python - 信息提取
问题描述
我正在寻找使用机器学习/NLP/深度学习技术从发票中提取信息的步骤/过程。要遵循的步骤/过程是什么?
该方法需要在下面进行澄清
假设有来自 2 个供应商的发票,需要如何创建模型来提取以下字段中提到的值?它会有关键字提取吗?是否需要实施自定义 NER,如果需要,如何实施?应该如何为此创建训练数据?
发票编号 发票日期 发票金额 地址
解决方案
您可以使用 SpaCy 训练您的自定义 NER。SpaCy 需要一种特定的输入格式,其中包含每个实体的开始和结束索引及其标签。您可以参考 SpaCy 文档:https ://spacy.io/usage/training
推荐阅读
- kotlin - 警告:API 'variant.getPackageLibrary()' 已过时,已替换为 'variant.getPackageLibraryProvider()'
- linq - 通过linq c#将日期划分为句点
- php - Codeigniter 3 - 如何在用户的时区显示日期和时间
- store - 如何在不使用 Ngxs-store 与父组件交互的情况下将子组件状态传递给 Store?
- google-chrome - 谷歌浏览器意外退出:(在我的 Mac 上进行网络抓取工作时导致)
- excel - 使用 2 个用户表单,代码不会在两者之间进行交互
- php - 编辑和删除按钮在php,ajax中的服务器端数据表中添加
- javascript - 通过缩小 graphql 查询,我是否会遇到问题
- django - How to change permission of django project?
- c# - 无法发布活动。取消授权。机器人模拟器错误