python - tabula_py 问题 如何提取分布在多个页面中的 pdf 表格数据
问题描述
我正在尝试使用 tabula_py 从 pdf 中提取所有表数据: df=tabula.read_ptabula.read_pdf(test_pdf,stream=True,multiple tables=True,pages="all")
pdf有3个表。第二张表在 2 页上。当我尝试 len(df) 时,它返回 4 而不是 3 扩展页面上第二个表数据的第一行作为标题返回如何将数据作为同一个表从标题提取到最后一行
解决方案
推荐阅读
- javascript - 如何使用正则表达式从多个定界符中提取两个定界符之间的最后一次出现的字符串?
- awk - 模式之间的查找和模式之间的过程
- reactjs - 带有 lodash debounce 的 NextJS 函数不起作用 [TypeError: search(...) is undefined]
- neo4j - 密码查询以查找与给定列表中至少两个其他用户连接的用户
- python - 名称“gcry_md_hash_buffer”未定义
- node.js - 节点警告:UnhandledPromiseRejectionWarning:TypeError:displayErrorFunction 不是函数
- javascript - javacript 逻辑“与”和逻辑“或”
- python - 如何遍历 Pandas DataFrame 并在它们上运行函数
- java - 无法在java中使用“File.copy”方法复制文件
- javascript - 列出多种语言字幕 video.js