python - Python 仅从 PDF 文件中提取表格的一部分
问题描述
我有一个 PDF 文件,正在尝试使用 tabula 来读取和提取表格。但是我只将表格的几行提取到 CSV 而不是整个表格。PDF文件有什么问题吗?
任何帮助,将不胜感激!
import tabula
from tabula import read_pdf
import pandas as pd
from tabula import read_pdf
tabula.convert_into(r"C:\Users\zjalil\Desktop\CDS_Analytical2.pdf", "CLD.csv", output_format="csv", pages='all')
解决方案
尝试这个:
df = tabula.read_pdf("C:\Users\zjalil\Desktop\CDS_Analytical2.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')
然后将此 DataFrame 保存为 csv 文件:
df.to_csv('CLD.csv', encoding='utf-8')
推荐阅读
- javascript - Axios 无法在 android 上上传文件但在 iOS 上工作
- cmake - Cmake 配置以使用不同的选项构建相同的源
- sql - 将产品线 UpTime/DownTime 分解为季度总计 SQL
- xslt - group-starting-with 没有像我期望的那样工作
- ruby-on-rails - 为什么我的生产日志显示 ActiveRecord::RecordNotUnique 错误,但我的本地 binding.pry 显示 ActiveModel::Errors?
- vb.net - 为什么在事件句柄子中引发事件时不触发事件?
- reactjs - 在同一个域上托管 React 应用和 Express 应用
- sharepoint - 在文件资源管理器中打开基于 Office365 SharePoint 的资源
- java - 使用 for 循环从任意大小的列表中获取多个 WebElement
- python - 如何根据他的值(RecycleView)为 SelectableLabel 设置特定的颜色?