python-3.x - 使用 Python 在非结构化文档中提取特征的方向
问题描述
项目背景:我对 NLP 很陌生,所以如果我的问题看起来非常复杂,请原谅我。我正在尝试从上市公司上市文件中提取一些特征,例如公司名称、一些货币价值和个人姓名,其中包含大量文本(300 多页)。
解析到程序中的文本如下所示:“在此议案中,A 公司控股(“公司”)由 B 公司有限公司赞助。公司董事长 John Doe 已批准此活动”
预期结果如下所示: 公司:A 公司控股 发起人:B 公司有限公司 董事长:John Doe
由于所有文档都是 PDF 格式,我将它们解析为文本。使用我拥有的文档对 Spacy 执行了一些 NER,并且根据 NER 结果的外观,它已成功识别出我需要的所有实体。(IE 它认可 A 公司 Holdings、Company B Limited 和 John Doe)
我应该如何接近上述目标?我没有大量文件来训练模型(目前大约有 30 个 ish 文档),我们将非常感谢您提供有关如何解决问题的一般方向或模块示例。
谢谢大家!
解决方案
推荐阅读
- php - CodeIgniter 在从控制器调用的构造中获取当前库函数名称的名称
- python-2.7 - 加载数据文件以检查有关数据的基本详细信息,任何人都可以纠正代码以正常运行吗?
- javascript - 在粘贴之前删除某些文本
- sql - presto 中递归正则表达式替换查询的替代方法
- postman - 当使用 POSTMAN 向演示客户端发送 POST 请求时,Keycloak 中没有 refresh_token
- three.js - ThreeJs:如何将四面体几何添加到曲面
- android - 创建多个问题复选框动态验证是否选中android
- c# - 从另一个不工作的线程调用存储过程 c#, EntityFramework
- json - 无法在 Go 中验证 jsonschema
- python - 如何处理对数转换以解决分布偏度