python - Tabula-py 无法正确识别列
问题描述
我正在尝试使用制表符识别 pdf 文档。我使用这段代码:
df = tabula.read_pdf(io.BytesIO(content), pages=12,pandas_options={'header': None}, multiple_tables = True,columns=(78.39, 226.97, 280.97,370.04,461.02,550.06))
但是,识别后,前两列是一列。我试图更改列坐标,但没有帮助。
另外,我尝试使用guess=False,它也无济于事。
我想知道是否有人可以帮助我解决这个问题?非常感谢
解决方案
使用 SumatraPDF 阅读器打开 PDF。按“m”激活左上角的测量显示。然后将光标放在表格的左上角和右下角,得到如下坐标:
右下角:
- 运行命令:
java -jar tabula-1.0.2-jar-with-dependencies.jar -p 2 -a 164,20,390,771 "myPdf.pdf" -o outfile.csv
注意:a) 选项 'p' 给出页码
b) 选项“a”具有表格区域(上、左、下、右)——坐标来自 SumatraPDF 阅读器。
c) "[DEMO USE ONLY] Create_Opp_1822018_111526_AM - signed.pdf" 是要从中提取的 pdf
d) 选项 'o' 给出要保存到的文件名。如果在运行 tabula 命令之前存在,请删除此文件。
这将创建 csv
推荐阅读
- java - 如果没有依赖注入,Java Spring 中的 XML IoC 有什么意义?
- functional-programming - 如何从方案中的函数返回值
- javascript - 对象作为 React 子级无效。如果您打算渲染一组子项,请改用数组 - 错误 Solidity - React
- php - 如何使用 PHP 解析网页内的图像?
- reactjs - Gatsby 中的 Prismic 插件出现“无效插件选项”错误
- laravel - 如何根据登录用户隐藏按钮?在HTML
- xpath - 为什么带有 XPATH 的 IMPORTXML 除了返回预期结果之外还返回意外的空白行?
- html - CSS未使用引导程序加载
- javascript - 异步/等待在 react-native-component 中调用 api 的搜索函数
- kubernetes - 查询 Kubernetes 中的远程状态存储(交互式查询)