首页 > 解决方案 > 信息提取

问题描述

我正在寻找使用机器学习/NLP/深度学习技术从发票中提取信息的步骤/过程。要遵循的步骤/过程是什么?

该方法需要在下面进行澄清

假设有来自 2 个供应商的发票,需要如何创建模型来提取以下字段中提到的值?它会有关键字提取吗?是否需要实施自定义 NER,如果需要,如何实施?应该如何为此创建训练数据?

发票编号 发票日期 发票金额 地址

标签: pythondeep-learningnlpnltkspacy

解决方案


您可以使用 SpaCy 训练您的自定义 NER。SpaCy 需要一种特定的输入格式,其中包含每个实体的开始和结束索引及其标签。您可以参考 SpaCy 文档:https ://spacy.io/usage/training


推荐阅读