首页 > 解决方案 > 为什么pdfMiner.six中从pdf转换的html文档中的段落重叠?

问题描述

我试图弄清楚 pdfMiner.six 是如何工作的(当前使用 Python 3.6 的稳定版本)。文档没有过多的示例或教程,所以我将通过反复试验。幸运的是,repo 确实包含一些我可以使用的示例文件。我认为这些样本应该在当前的稳定版本中正常工作。

我正在尝试提取既可挖掘又可读的文本。简而言之,我想将这些 pdf 转换为 html 文件,格式基本完整。但是,示例 pdf 中的段落以某种方式被覆盖,使文本无法阅读。我玩过 LAParams,使用不同的 line_overlap、line_margin 和 box_flow 值,但它们似乎都不能解决问题。

这是我的代码和结果的屏幕截图:

显示重叠段落的屏幕截图

with open(pdf_file, 'rb') as fin:
    extract_text_to_fp(fin, output_string,
                       output_dir=output_dir,
                       laparams=LAParams(line_overlap=0.7, line_margin=0.7, boxes_flow=-1), output_type='html', codec='UTF-8')
    with open(converted_file, 'wb') as fout:
        fout.write(output_string.getvalue())

标签: pythonhtmlpdfminer

解决方案


推荐阅读