python - camelot-py 将文本添加到错误的表格单元格
问题描述
对于我的学校项目,我有以下 pdf(2 页):https ://drive.google.com/file/d/1-Yk94f_Ec2yWtpOzvloA99DLE7bgQVc7/view?usp=sharing
我正在尝试提取每个页面的第一个表格。第一个表工作正常,但对于第二个表,Camelot 将 1 个“单元格”的文本转移到相邻的单元格,我不知道为什么。
import pandas as pd
import camelot
pdf_path = "C:/mwol_data.pdf"
page_1 = camelot.read_pdf(pdf_path, pages="1", strip_text="\n")
table_1 = page_1[0].df
page_2 = camelot.read_pdf(pdf_path, pages="2", strip_text="\n")
table_2 = page_2[0].df
我正在寻找解决此问题的解决方案。
解决方案
推荐阅读
- node.js - 节点 js JWT 令牌不是使用 RS256 算法生成的
- python - 如何测试 RASA 模型?
- java - 创建唯一的会话 id ServletRequestAttributes
- php - 如何在 vue 中渲染 smarty?
- c++ - 如何将 std::vector 用于带句柄的类
- docker - 如何使用 Dockerfile 在 docker 中运行 eval $(envkey-source) 命令?
- c# - InvalidCastException,可能涉及泛型
- c# - 如何在不减少 C# 列表中的容量的情况下减少计数
- python - Kubeflow 管道不会创建任何 pod;未知状态
- android - Android 应用内更新 API 返回 0 作为 availableVersionCode & updateAvailability 作为 1 (UPDATE_NOT_AVAILABLE)