python - 将 PDF 转换为 HTML 而不会丢失任何格式
问题描述
我正在开发一个 Python Flask webapp,我正在尝试将一些用户上传的 pdf 转换为格式良好的 HTML,例如当您在iframe
.
到目前为止,我尝试了几件事:
pdfminer.six
图书馆,产生凌乱的HTML,- 试图在使用 pdf.js 渲染 PDF 时获取生成的 HTML,这显然隐藏在Shadow DOM中,无法访问其内部 HTML
- 最后我遇到了
pdf2htmlEX
(https://github.com/pdf2htmlEX/pdf2htmlEX),它产生了我想要的东西。
在本地,这个解决方案效果很好,但是在生产状态(Heroku)我无法正确安装它。该项目已被弃用,文档有限且糟糕。该问题与损坏的依赖关系有关。
那么,如何使用 Python 或任何其他工具有效地将 PDF 转换为 HTML 而不会丢失任何格式?
十分感谢。
如果有人愿意帮助我pdf2htmlEX
在 Heroku 上工作,请发表评论,我将在不同的帖子中发布更多详细信息
解决方案
这不会是微不足道的。但我会给出一些指示。
您需要app.json
在其中定义构建包。
https://devcenter.heroku.com/articles/app-json-schema#buildpacks
如果该项目可以通过apt
它获得,那将很容易。您只需使用Heroku 的 Apt buildpack定义一个Aptfile
说明它需要安装哪些包。示例
然后它会自动安装它,你就完成了。
如果它不能作为包提供,您将需要创建自己的 buildpack。
https://devcenter.heroku.com/articles/buildpack-api此处使用的
示例。
另一种解决方案是将您的项目 dockerize 并将其作为 docker 容器执行。
推荐阅读
- docker - 是否可以在 NGINX 和 Docker 容器之间共享端口?
- php - 获取产品的总投入成本 - CakePHP 4
- ios - 显示模态视图后,标签栏中的 UIButton 消失
- java - 如何在 java UDP 数据报包上设置前 2 个字节?
- ios - 有什么方法可以在 Swift 中进行递归异步调用,直到调用检索所有页面?
- windows - FFmpeg:将元数据附加到段复用器
- sql - concatenate 2 columns from different tables
- bing-maps - 必应地图:移动设备上的最大缩放级别与桌面设备不同
- c - C中的下溢和nan有什么区别?
- snowflake-cloud-data-platform - 自动重新聚类和搜索优化