首页 > 解决方案 > 使用 Python 在非结构化文档中提取特征的方向

问题描述

项目背景:我对 NLP 很陌生,所以如果我的问题看起来非常复杂,请原谅我。我正在尝试从上市公司上市文件中提取一些特征,例如公司名称、一些货币价值和个人姓名,其中包含大量文本(300 多页)。

解析到程序中的文本如下所示:“在此议案中,A 公司控股(“公司”)由 B 公司有限公司赞助。公司董事长 John Doe 已批准此活动”

预期结果如下所示: 公司:A 公司控股 发起人:B 公司有限公司 董事长:John Doe

由于所有文档都是 PDF 格式,我将它们解析为文本。使用我拥有的文档对 Spacy 执行了一些 NER,并且根据 NER 结果的外观,它已成功识别出我需要的所有实体。(IE 它认可 A 公司 Holdings、Company B Limited 和 John Doe)

我应该如何接近上述目标?我没有大量文件来训练模型(目前大约有 30 个 ish 文档),我们将非常感谢您提供有关如何解决问题的一般方向或模块示例。

谢谢大家!

标签: python-3.xnltkspacytext-extraction

解决方案


推荐阅读