首页 > 解决方案 > 将 PDF 中的 Fortran 代码提取到文本文件中?

问题描述

我有一个包含 5000 行 fortran 代码的 PDF,格式严格对于第 1 列。现在我希望 python pdfminer 等可以帮助我。

我从这里找到了类似的代码,但没有打印文本,不知道出了什么问题。我想知道如何将文本保存到 csv 或 fortan .for 文件中?谢谢

用于将 PDF 转换为文本的 Python 模块

from pdfminer3.layout import LAParams, LTTextBox
from pdfminer3.pdfpage import PDFPage
from pdfminer3.pdfinterp import PDFResourceManager
from pdfminer3.pdfinterp import PDFPageInterpreter
from pdfminer3.converter import PDFPageAggregator
from pdfminer3.converter import TextConverter
import io

resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)

with open('gzw_umat.pdf', 'rb') as fh:

    for page in PDFPage.get_pages(fh,
                                  caching=True,
                                  check_extractable=True):
        page_interpreter.process_page(page)

    text = fake_file_handle.getvalue()

# close open handles
converter.close()
fake_file_handle.close()

print(text)

在此处输入图像描述

标签: python

解决方案


推荐阅读