首页 > 解决方案 > Python 仅从 PDF 文件中提取表格的一部分

问题描述

我有一个 PDF 文件,正在尝试使用 tabula 来读取和提取表格。但是我只将表格的几行提取到 CSV 而不是整个表格。PDF文件有什么问题吗?

任何帮助,将不胜感激!

import tabula

from tabula import read_pdf

import pandas as pd

from tabula import read_pdf


tabula.convert_into(r"C:\Users\zjalil\Desktop\CDS_Analytical2.pdf", "CLD.csv", output_format="csv", pages='all') 

标签: python

解决方案


尝试这个:

df = tabula.read_pdf("C:\Users\zjalil\Desktop\CDS_Analytical2.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')

然后将此 DataFrame 保存为 csv 文件:

df.to_csv('CLD.csv', encoding='utf-8')

推荐阅读