python - 使用 Python 阅读 PDF 摘要
问题描述
我正在尝试PDF
使用Python
.
我想在第一页中提取摘要。
它是否存在library
能够做到的?
解决方案
您的问题有两个部分:首先您必须从 PDF 中提取文本,然后通过摘要器运行。
有许多实用程序可以从 PDF 中提取文本,尽管 PDF 中的文本可能不会以“逻辑”顺序存储。
(例如,具有两个文本列的页面可能会存储两列的第一行,然后是下一行,依此类推;而不是人类会阅读的第一列的所有文本,然后是第二列的所有文本。 )
PDFMiner库似乎是提取文本的理想选择。一个快速的谷歌显示有几个文本摘要器 python 库,尽管我没有使用它们中的任何一个,也无法证明它们的能力。但是解析人类语言是很棘手的——即使对人类来说也是如此。
https://pypi.org/project/text-summarizer/
http://ai.intelligentonlinetools.com/ml/text-summarization/
如果您使用的是 MacOS,则有一个内置的文本摘要服务。右键单击任何选定的文本,然后单击“摘要”以激活。尽管似乎很难将其整合到任何自动化过程中。
推荐阅读
- python - 变量分配的布尔值
- javascript - 通过传播参数对象不起作用的对象传递参数以发挥作用
- flutter - 从 Firebase 到字符串日期的时间戳
- google-cloud-platform - 使用 Google Cloud Storage 和 Google Speech to Text 创建无服务器音频处理
- r - 为什么应用自定义函数来替换数据框中变量的当前值不会永久替换它?
- javascript - 模板文字中 JSON 格式的动态 API 中的 For 循环数组
- c - WNOHANG 是否清理子资源
- android - Android:只有数字的单选按钮标签在宽度上分布不均匀
- android - 如何将事件从一个片段传递到另一个片段?
- html - 想要将 html 页面重定向为其他页面的子页面