首页 > 解决方案 > 使用 Python 阅读 PDF 摘要

问题描述

我正在尝试PDF使用Python.

我想在第一页中提取摘要。

它是否存在library能够做到的?

标签: python

解决方案


您的问题有两个部分:首先您必须从 PDF 中提取文本,然后通过摘要器运行。

有许多实用程序可以从 PDF 中提取文本,尽管 PDF 中的文本可能不会以“逻辑”顺序存储。
(例如,具有两个文本列的页面可能会存储两列的第一行,然后是下一行,依此类推;而不是人类会阅读的第一列的所有文本,然后是第二列的所有文本。 )

PDFMiner似乎是提取文本的理想选择。一个快速的谷歌显示有几个文本摘要器 python 库,尽管我没有使用它们中的任何一个,也无法证明它们的能力。但是解析人类语言是很棘手的——即使对人类来说也是如此。

https://pypi.org/project/text-summarizer/

http://ai.intelligentonlinetools.com/ml/text-summarization/

如果您使用的是 MacOS,则有一个内置的文本摘要服务。右键单击任何选定的文本,然后单击“摘要”以激活。尽管似乎很难将其整合到任何自动化过程中。


推荐阅读