python - 使用 Python 从 pdf 文件中提取文本
问题描述
我想提取文本,包括 pdf 文件中的表格。
我试过了camelot
。它不仅可以获取表格数据,还不能获取文本。
我也试过PDF2。它不能读汉字。
这是要阅读的pdf样本。
接下来我应该尝试什么?
谢谢你。
解决方案
推荐阅读
- python - 如何让滚动条出现在列表框的右侧
- android - Kotlin 流程:仅收集至少重复 N 次的元素
- reactjs - 如何正确配置 ExtReact 以在 Edge 和 IE 中运行自定义元素?
- javascript - 需要在函数内部具有凭据的模块
- django - 如何将 html 字符串作为 pdf 文件上传到 Google Cloud Storage?(Python)
- sql-server - 在 SQL Server 中根据“Capture_Date”查找“MTD_Days_Worked”的总数
- java - 优化二维阵列寻路算法
- aws-amplify - 如何在 AWS Amplify 应用程序中共享后端
- python - 缩短用户输入的睡眠时间
- python - 如何绘制出版物数量与年份的关系。有没有使用 python 或 Bibtex 的方法?