ironpython - 使用 Apache OpenOffice 将 PDF 转换为 ODT/DOC
问题描述
我正在使用 IronPython+PyFPDF 生成包含图像、表格和文本的 PDF 格式的报告。好吧,既然 PDF 从来都不是可编辑/浮动文档,我想知道是否有办法将其转换为任何可编辑文档,如 ODT/Doc,尽可能保持文档格式完整。
我探索了几种方法和可能的方法
- PDF -> HTML -> Word(使用 pdftohtmlEx 和 pandas 从 html 获取文档,但看起来 pdftohtmlEx 不保留文档的格式)
- 使用 MS Word 或 Apache Open Office(取决于服务器,考虑到应用程序编写者存在)进行转换,因为它们具有从 GUI 执行此操作的功能,因此必须有某种方法从命令行执行此操作,然后使用该命令来自 python 子进程的行以编程方式执行
我愿意探索任何第三方库/包,唯一的问题/限制是 IronPython 不支持包含大量 C 代码的包,例如 docx-mailmerge、python-docx、numpy、pandas
总而言之,我认为最好的选择是使用 Word 或 Apache Open Office 编写器来完成这项工作,但我不确定如何通过命令行来实现它
谁能指出我正确的方向?
解决方案
推荐阅读
- python - Tensorflow 2.0 将训练后的参数保存到新文件中
- java - 调试哈希图 - Java Android
- c# - C# 将用户 AD 组与 MVC 模型进行比较
- angular - 当数据超过 ngx-datatable 中的列宽时显示省略号(...)
- c++ - 将字符串向量的元素变成char的元素
- excel - 从单元格中选择时,如何为 trimmean 函数指定数组参数?
- python - python3的psycopg2?Mac不会安装轮子
- android - AlertDialogBox showing even though never called kotlin android
- javascript - 使用 highcharts 进行异步钻取
- ios - 图像未填充在 iOS 模拟器的 Header 中