首页 > 解决方案 > 将 PDF 转换为 HTML 而不会丢失任何格式

问题描述

我正在开发一个 Python Flask webapp,我正在尝试将一些用户上传的 pdf 转换为格式良好的 HTML,例如当您在iframe.

到目前为止,我尝试了几件事:

在本地,这个解决方案效果很好,但是在生产状态(Heroku)我无法正确安装它。该项目已被弃用,文档有限且糟糕。该问题与损坏的依赖关系有关。

那么,如何使用 Python 或任何其他工具有效地将 PDF 转换为 HTML 而不会丢失任何格式?

十分感谢。

如果有人愿意帮助我pdf2htmlEX在 Heroku 上工作,请发表评论,我将在不同的帖子中发布更多详细信息

标签: pythonhtmlpdfherokupdf2htmlex

解决方案


这不会是微不足道的。但我会给出一些指示。

您需要app.json在其中定义构建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacks

如果该项目可以通过apt它获得,那将很容易。您只需使用Heroku 的 Apt buildpack定义一个Aptfile说明它需要安装哪些包。示例
然后它会自动安装它,你就完成了。

如果它不能作为包提供,您将需要创建自己的 buildpack。
https://devcenter.heroku.com/articles/buildpack-api此处使用的
示例

另一种解决方案是将您的项目 dockerize 并将其作为 docker 容器执行。


推荐阅读