首页 > 解决方案 > 如何在自定义 WebApp 中使 PDF 可编辑

问题描述

我有一些包含不同 PDF 文档的文件夹。我想让这些在 WebApp (js/python) 中可编辑和可搜索。

对于搜索部分,我可以使用pdfminer之类的东西将文本提取到数据库中。然后我可以在数据库中搜索文本。

然后我想直接在 WebApp 中显示 PDF 的内容(因此用户不必打开 PDF)。为此,我可以使用类似vue-pdf 的东西。

我的问题是,我还想让 PDF 文档的内容在 WebApp 中可编辑。这个想法是管理员可以添加指向 PDF 的链接,该链接指向另一个 PDF。(例如,将文档 x.pdf 中的文本“我们的条款和条件”链接到文档 terms.pdf)。如果用户单击该链接,则其他文档也应在 WebApp 中打开。

我尝试了以下两种方法:

1.) 使用PDFTron之类的东西直接将链接添加到 PDF ,> 可以添加链接。这里的问题(除了许可)是,我无法控制链接的打开方式(所以它只是下载链接的>文档),并且我无法链接到文档中的特定页面。

2.) 将文档转换为 HTML 并将 HTML 存储在数据库中。>像这样,我可以使用标签来链接文档。>这里的主要问题是,转换有一些样式错误,这使得文本的某些部分不可读,这在生成的 HTML 代码中很难修复。

对我来说,如果样式不是与 PDF 中的 1:1 相同,也可以。因此,例如将所有内容转换为 Markdown 也是一种可能的解决方案,但我找不到任何工具(使用 python)。

长话短说:这个用例是否有任何现有的解决方案,或者有没有更好的方法来实现我的目标?如果没有,将 PDF 转换为的最佳格式是什么?

标签: javascriptpythonpdfpdfminer

解决方案


推荐阅读