首页 > 解决方案 > 我已经使用 anaconda python3 将 pdf 文件转换为 csv 但是转换后的 csv 文件不是可读形式如何使其可读?

问题描述

# importing required modules 
import PyPDF2 

# creating a pdf file object 
pdfFileObj = open(path, 'rb') 

# creating a pdf reader object 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

# printing number of pages in pdf file 
print(pdfReader.numPages) 

# creating a page object 
pageObj = pdfReader.getPage(0) 

# extracting text from page 
print(pageObj.extractText()) 
  
df = pd.DataFrame(pdfFileObj)
print (df)
df.to_csv('output.csv')

我已经使用 anaconda python 3 将 pdf 文件转换为 csv。但是转换后的 csv 文件不是可读的形式。如何以可读格式制作该csv?

标签: pythonpandascsvpypdf2

解决方案


我测试了您的方法,但找不到纠正 csv 输出的方法。我通常这样做:

import csv
import os
from miner_text_generator import extract_text_by_page
def export_as_csv(pdf_path, csv_path):
    filename = os.path.splitext(os.path.basename(pdf_path))[0]
    
    counter = 1
    with open(csv_path, 'w') as csv_file:
        writer = csv.writer(csv_file)
        for page in extract_text_by_page(pdf_path):
            text = page[0:100]
            words = text.split()
            writer.writerow(words)
            
        
if __name__ == '__main__':
    pdf_path = '<your path to the file>.pdf'
    csv_path = '<path to the output>.csv'
    export_as_csv(pdf_path, csv_path)

推荐阅读