python - 将 PDF 中的 Fortran 代码提取到文本文件中?
问题描述
我有一个包含 5000 行 fortran 代码的 PDF,格式严格对于第 1 列。现在我希望 python pdfminer 等可以帮助我。
我从这里找到了类似的代码,但没有打印文本,不知道出了什么问题。我想知道如何将文本保存到 csv 或 fortan .for 文件中?谢谢
from pdfminer3.layout import LAParams, LTTextBox
from pdfminer3.pdfpage import PDFPage
from pdfminer3.pdfinterp import PDFResourceManager
from pdfminer3.pdfinterp import PDFPageInterpreter
from pdfminer3.converter import PDFPageAggregator
from pdfminer3.converter import TextConverter
import io
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open('gzw_umat.pdf', 'rb') as fh:
for page in PDFPage.get_pages(fh,
caching=True,
check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
# close open handles
converter.close()
fake_file_handle.close()
print(text)
解决方案
推荐阅读
- windows - bash 变量只保留最后一行 grep
- php - TYPO3 v10LTS - 错误 - 核心:异常处理程序(WEB):未捕获的 TYPO3 异常:#1573385431:无法获取 RSS URL | 运行时异常
- flutter - 如何获取目录中的文件路径?
- azure - 有没有办法通过 Azure 功能向 Azure 服务主体发送电子邮件?
- python - 如何将一个句子分成几个词组?
- c - 使用 strsep 读取 csv 文件的分段错误
- c# - 获取目标总和的数字组合 - C#
- gnupg - gpg:错误读取符号链接'/proc/curproc/file':没有这样的文件或目录
- typescript - 在下一个js中临时存储数据
- css - 在 VS Code 中使用 Google 字体