python - 为什么pdfMiner.six中从pdf转换的html文档中的段落重叠?
问题描述
我试图弄清楚 pdfMiner.six 是如何工作的(当前使用 Python 3.6 的稳定版本)。文档没有过多的示例或教程,所以我将通过反复试验。幸运的是,repo 确实包含一些我可以使用的示例文件。我认为这些样本应该在当前的稳定版本中正常工作。
我正在尝试提取既可挖掘又可读的文本。简而言之,我想将这些 pdf 转换为 html 文件,格式基本完整。但是,示例 pdf 中的段落以某种方式被覆盖,使文本无法阅读。我玩过 LAParams,使用不同的 line_overlap、line_margin 和 box_flow 值,但它们似乎都不能解决问题。
这是我的代码和结果的屏幕截图:
with open(pdf_file, 'rb') as fin:
extract_text_to_fp(fin, output_string,
output_dir=output_dir,
laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
with open(converted_file, 'wb') as fout:
fout.write(output_string.getvalue())
解决方案
推荐阅读
- azure - 如何在 Azure 容器实例中编辑 /etc/hosts?
- pm2 - pm2 - 文件保存时重新启动(pm2 日志)
- http - HTTP 1.1 是否允许在请求仍然流式传输块时发送响应?
- amazon-web-services - AWS CodeBuild Docker 镜像作为基础镜像
- cordova - 冲突 cordova-plugin-googleplus 和 phonegap-plugin-push
- reactjs - 无法读取未定义的属性“XYZ” – 绑定问题
- node.js - Firebase Admin SDK - 错误:“提供给 initializeApp() 的凭据实现”
- r - 使用 ggplot 的 R 条形图
- selenium-webdriver - 是否可以将 selenium 与任何 AI 工具集成,使其能够拥有更好的或 AI(人工智能)方法来定位元素
- vb.net - DataGridView,列作为字符串,列作为整数