首页 > 解决方案 > 使用深度学习从 PDF 中提取短语

问题描述

我想教 AI 从 PDF 中提取特定的短语。例如,产品名称在文档中的某处进行了描述,人工智能必须找到并提取它。我的问题是,如果将 PDF 作为图像或提取的字符串提供更好,因为文档的结构很粗略。我希望我的问题可以理解。

也许有人也有一些想法或关键词让我开始:)

编辑:感谢 lsimmons 的提示,我找到了一种方法: https ://appliedmachinelearning.blog/2019/04/01/training-deep-learning-based-named-entity-recognition-from-scratch-disease -提取-黑客马拉松/

我将尝试此代码,当然只是使用产品名称而不是疾病。这称为“命名实体识别”,适用于遇到相同问题的每个人。我希望这行得通。

标签: kerasdeep-learning

解决方案


将 pdf 图像中的字符转换为文本更像是一项计算机视觉任务,而且这似乎不是您想要做的,因为您似乎对 NLP 的短语提取更感兴趣。因此,第一步可能是在将文本输入 NLP 库以进行短语提取之前从 pdf 中提取文本。

Python 中似乎有很多库可以进行 pdf 文本提取——是从快速的谷歌搜索中弹出的。至于 NLP,在这个领域有很多库和概念需要学习,再次快速谷歌搜索得到这篇文章作为 Python NLP 的介绍。


推荐阅读