首页 > 解决方案 > 裁剪 PDF 文件无法裁剪文本以进行文本提取(textract 和 pdfminer)

问题描述

我正在使用 python 库PyPDF2来裁剪许多 PDF 文件,以删除学术论文顶部和底部的无用信息(即底部的页码和期刊信息)。然后我使用该库textract将裁剪后的 PDF 文件中的文本提取到 txt 文件中。但是,尽管进行了裁剪,输出的 txt 文件仍然包含裁剪出来的信息。这也适用于pdfminer另一个文本提取库(不是 OCR)。似乎对于文本提取,与 OCR 不同,文本不能通过简单的裁剪来消除。谁能解释为什么会这样?关于如何消除 PDF 文件中用于文本提取的无用信息的任何想法?

标签: pythontext-miningpypdf2pdfminer

解决方案


推荐阅读