首页 > 解决方案 > Python:生成条形码并计算重复的 PDF 表单

问题描述

这有点牵扯,所以请和我在一起。

我正在开展一个“法庭观察”项目,该项目涉及要求志愿者与他们一起填写表格,并说明在特定法庭的审判/听证会期间发生的情况。

这是表格(隐私编辑)。

我们有数百个由志愿者填写。现在,由于这些是手写文件,因此需要其他志愿者将它们转录成电子表格。我们正在使用 Google 表单和志愿者来处理这个问题。

但是,我们需要此数据的主键和处理重复项的方法。

当两名志愿者坐在同一个法庭上并在同一次听证会上填写不同的表格时,就会出现重复。我们希望在评估质量和完整性之前捕获所有数据,因此我们不会检查这些数据并丢弃重复数据。

我们已决定在这些扫描的 PDF 上创建和使用条形码系统。使用Reportlab,我似乎可以在这些 OCR 的 PDF 上以编程方式生成条形码。

我需要的是一种处理重复项的方法。使用的条形码(或主键)应说明两个 PDF 重复的事实。

例如,结果数据集可能部分如下所示:

+---------+---------+----------------+
|   id    |  date   |     court      |
+---------+---------+----------------+
| 45234-A | 7/24/18 | district court |
| 45234-B | 7/24/18 | district court |
| 45235   | 7/24/18 | superior court |
+---------+---------+----------------+

“A”和“B”告诉我有两种表格是在同一天在同一次听证会上编制的。

您将如何设计一个系统(伪代码很好)基本上根据某物是否重复有条件地生成条形码?


我考虑过的解决方案:

也许,在扫描之前,我会按顺序订购物理文档。我把副本一个接一个地放在这堆里。使用标签制作器,我在那些重复的文件的右上角放置了“A”、“B”,而那些不重复的则留空。然后扫描并 OCR 处理这些文件。然后,在 Python 中,我编写了一些代码,通过扫描 PDF 右上角的字母“A”、“B”等,有条件地了解其中一个文档是否重复。如果是,则生成一个条形码并将“A”附加到它并检查下一个文件。将“B”附加到“A”中的条形码并将其添加到第二个文件中。继续检查下一个文件,直到没有字母,然后移动到下一个非重复文件。

如果我要开始上述解决方案,我不确定如何使用 Python 检查 PDF 中的“A”或“B”。


谢谢阅读!任何帮助深表感谢。

忍者编辑:我忘了提。使用这种系统的目的是让分布式和去中心化的志愿者获取大约 50 份表格,进入 Google 表格页面并输入它们。创建条形码系统可以让我们对表格进行说明并跟踪它们。

标签: pythonpdfocrreportlab

解决方案


推荐阅读