python - 裁剪 PDF 文件无法裁剪文本以进行文本提取(textract 和 pdfminer)
问题描述
我正在使用 python 库PyPDF2
来裁剪许多 PDF 文件,以删除学术论文顶部和底部的无用信息(即底部的页码和期刊信息)。然后我使用该库textract
将裁剪后的 PDF 文件中的文本提取到 txt 文件中。但是,尽管进行了裁剪,输出的 txt 文件仍然包含裁剪出来的信息。这也适用于pdfminer
另一个文本提取库(不是 OCR)。似乎对于文本提取,与 OCR 不同,文本不能通过简单的裁剪来消除。谁能解释为什么会这样?关于如何消除 PDF 文件中用于文本提取的无用信息的任何想法?
解决方案
推荐阅读
- reactjs - Gatsby.js:有没有办法只在页面加载时渲染组件,而不是在静态页面上
- c++ - 在 Vulkan 中为每个线程创建多个命令池
- sql - sql比较列值并返回更大的行
- php - php表单不添加到数据库中
- bash - 结合正则表达式 awk 和 bc
- jquery - 查找并收集所有具有 `data-id` 属性的元素的值
- git - 使用子模块跟踪分支是否可以保护您免受强制推送?
- javascript - 如何将贝塞尔曲线插入画布上的打开图像中?
- assembly - 为什么需要 ESP 寄存器中的 8 字节增量?
- c# - AutoCAD 关联框架 GetEdgeVertexSubentities() 致命错误