python - 从 pdf 文件中抓取一篇文章 - Python
问题描述
我有超过 5000 个 pdf 文件,每个文件至少 15 页,最多 20 页。我使用 pypdf2 找出 5000 个 pdf 文件中的哪些具有我要查找的关键字以及在哪个页面上。
现在我有以下数据:
我想知道是否有办法让我使用这些数据在特定页面上获取特定文章。我现在知道要检查哪些文件名和哪个页面。
非常感谢。
解决方案
有一个名为tika的库。它可以从单个页面中提取文本。您可以通过这样一种方式拆分您的 pdf,即您只有相关页面仍然可用。然后你可以使用:
parsed_page = parser.from_file('sample.pdf')
print(parsed_page['content'])
注意:此库需要在系统上安装 Java
推荐阅读
- json - 尝试使用 nuxt js 检查属性是否存在
- java - Thymeleaf 多文件输入在未选择任何内容时发送空文件
- visual-studio-2017 - 在 Visual Studio 2017 中是否有用于切换垂直拆分编辑器窗口的子窗格的命令/热键?
- twitter-bootstrap - Bootstrap navbar-toggle 带有标签的汉堡图标
- python-3.6 - numpy argsort 产生类型错误:只有整数标量数组可以转换为标量索引
- sql-server - Query Store 站在哪里,它在哪里存储执行计划、运行时统计信息?
- python - Pandas:如果字符串列表中不存在字符串,则将其替换为“其他”
- asp.net-mvc - 如何在打字稿项目中集成信号器?
- javascript - 我有一个 TextInput,如何只启用小于 9999.99 的数字?
- php - 从文件中删除特定行