python - 我需要一个起点来编写应用程序以将文本从 pdf 提取到 excel
问题描述
首先,我只想声明我是一名具有基本编程知识的电气工程师。
我的要求如下:
- 我想创建一个应用程序,我可以在其中加载和查看包含表格的 PDF 文件。
- 这些 PDF 文件表格的形状不规则,并且在每一页上的位置都不同。(这就是为什么像表格这样的工具不能帮助我的原因)
- 每个表格条目都是多行且尺寸不规则(我不能一次选择一整行,它必须是单独的每个元素。简单地将行复制到 Excel 也行不通,因为它需要大量格式化)
- 所以我希望能够从表格中单独选择每个表格条目(如所需文本上的选择或裁剪框),如果文本中有新行,则删除新行并保留空格。
- 生成的 excel(或我不介意的访问数据库)应该是可查看和可保存的(如果这些是偶数的话 XD)。
我对 python 和 Django 有很好的了解,我正在寻找一些专家,他们可以告诉我我真正需要学习什么(如果可能的话在哪里学习)来执行我的项目。
对我来说执行是不是非常多,如果我可以每周投入 10 个小时,执行这样一个项目需要多少钱。
提前感谢大家的帮助。
解决方案
不要使用 Python,使用 Word。打开pdf,然后逐步通过表格集合收集数据并将其放入excel。请参阅此示例
推荐阅读
- sql - 如何从第一个订单的月份创建用户群组,然后在 SQL 中计算有关这些订单的信息?
- ios -
- php - How to use Laravel Livewire with Eloquent Models?
- c# - Any way to pass parent container objects single statement assignment?
- c# - How to make pass by reference method working
- java - 有没有办法在您自己的应用程序上复制 Google 地图的准确性?
- kubernetes - Kubernetes PV/PVC not mounting to the correct volumeMounts in the pods
- bash - 查看 NUMBER 个本地未提交的文件
- javascript - How to view console.log() of webpage running inside React Native WebView?
- r - 从嵌套列表中提取特定变量的值,并将提取值的一列附加到我的原始数据集中