python - 我已经使用 anaconda python3 将 pdf 文件转换为 csv 但是转换后的 csv 文件不是可读形式如何使其可读?
问题描述
# importing required modules
import PyPDF2
# creating a pdf file object
pdfFileObj = open(path, 'rb')
# creating a pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# printing number of pages in pdf file
print(pdfReader.numPages)
# creating a page object
pageObj = pdfReader.getPage(0)
# extracting text from page
print(pageObj.extractText())
df = pd.DataFrame(pdfFileObj)
print (df)
df.to_csv('output.csv')
我已经使用 anaconda python 3 将 pdf 文件转换为 csv。但是转换后的 csv 文件不是可读的形式。如何以可读格式制作该csv?
解决方案
我测试了您的方法,但找不到纠正 csv 输出的方法。我通常这样做:
import csv
import os
from miner_text_generator import extract_text_by_page
def export_as_csv(pdf_path, csv_path):
filename = os.path.splitext(os.path.basename(pdf_path))[0]
counter = 1
with open(csv_path, 'w') as csv_file:
writer = csv.writer(csv_file)
for page in extract_text_by_page(pdf_path):
text = page[0:100]
words = text.split()
writer.writerow(words)
if __name__ == '__main__':
pdf_path = '<your path to the file>.pdf'
csv_path = '<path to the output>.csv'
export_as_csv(pdf_path, csv_path)
推荐阅读
- lumen - 找不到路由时的 Lumen API 自定义错误消息
- python - django python - 如何列出列表的渐进数值
- c# - MediaPlayer 和 RenderTargetBitmap 从视频中获取帧图像的问题
- jsf - 如何使用带有自定义或“无”主题的 PrimeIcons
- visual-studio - docker compose 环境变量中的点符号不起作用
- django - 如何在不克隆数据库关系的情况下克隆模型实例?
- asp.net-mvc - 使用 Microsoft 帐户通过 Azure 进行单点登录
- graph - 如何在 sas 分辨率中增加 kaplan-Meier 生存图
- python - 错误:“不正确的令牌已通过” discord.py
- docker - Docker Swarm + Traefik + Moodle 网关错误