首页 > 解决方案 > camelot-py 将文本添加到错误的表格单元格

问题描述

对于我的学校项目,我有以下 pdf(2 页):https ://drive.google.com/file/d/1-Yk94f_Ec2yWtpOzvloA99DLE7bgQVc7/view?usp=sharing

我正在尝试提取每个页面的第一个表格。第一个表工作正常,但对于第二个表,Camelot 将 1 个“单元格”的文本转移到相邻的单元格,我不知道为什么。

import pandas as pd
import camelot

pdf_path = "C:/mwol_data.pdf"

page_1 = camelot.read_pdf(pdf_path, pages="1", strip_text="\n")
table_1 = page_1[0].df

page_2 = camelot.read_pdf(pdf_path, pages="2", strip_text="\n")
table_2 = page_2[0].df

Table_2 输出以下内容: 在此处输入图像描述

我正在寻找解决此问题的解决方案。

标签: pythonpython-camelot

解决方案


推荐阅读