python - PDFMiner Version diffs?Getting UnsupportedOperation: seek
问题描述
我正在使用爬虫从网站上获取一些 pdf 文件并将其转换为 txt,我得到了这个 Error Getting UnsupportedOperation: seek.
我搜索了很多网站,但无法帮助我解决问题。
文件“”,第 51 行,解析 praser_pdf = PDFParser(fp)
文件“D:\Anaconda\lib\site-packages\pdfminer\pdfparser.py”,第 43 行,在init PSStackParser 中。初始化(自我,fp)
文件“D:\Anaconda\lib\site-packages\pdfminer\psparser.py”,第 515 行,在init PSBaseParser 中。初始化(自我,fp)
文件“D:\Anaconda\lib\site-packages\pdfminer\psparser.py”,第 169 行,在init self.seek(0)中
文件“D:\Anaconda\lib\site-packages\pdfminer\psparser.py”,第 527 行,在 seek PSBaseParser.seek(self, pos)
文件“D:\Anaconda\lib\site-packages\pdfminer\psparser.py”,第 199 行,在 seek self.fp.seek(pos)
不支持的操作:seek
这是我的代码
baseurl = "http://reportdocs.static.szse.cn/UpFiles/fxklwxhj/"
def parse(docucode):
_path = baseurl + quote(docucode) +"?random=0.3006649122149502"
request = Request(url=_path, headers=headers)
fp = urlopen(request)
praser_pdf = PDFParser(fp)
doc = PDFDocument()
praser_pdf.set_document(doc)
doc.set_parser(praser_pdf)
doc.initialize()
该代码无法工作,它只是在 praser_pdf = PDFParser(fp) 中分解,我真的很想知道如何解决它!
非常感谢!
解决方案
这是从 url 读取 pdf 并写入输出文件的示例实现。注意:此实现适用于 pdfminer:20191125 并且不包括对来自 url 的响应的错误处理
from urllib.request import urlopen, Request
import os
pdf_url = "http://www.inkwelleditorial.com/pdfSample.pdf"
rp1 = Request(pdf_url)
fp = urlopen(rp1)
output_path = "/home/mint/Desktop/temper.html"
input_path = "/home/mint/Desktop/temper.pdf"
open(input_path, "w").close() # For making the output file as empty before going forward
with open(input_path, "wb") as f:
f.write(fp.read())
command = "pdf2txt.py -t html -o {} {} ".format(output_path, input_path)
os.system(command)
推荐阅读
- javascript - JS 数组 findIndex() 不是函数
- sql - 我在 MDB 或 MDE 文件扩展名的 MS ACCESS 中获得的代码在哪里
- excel - VBA/EXCEL:循环遍历具有条件格式的单元格以隐藏基于 ColorIndex 的行
- jest-dom - Got TypeError: expect(...).toBeInTheDocument is not a function 即使在正确设置之后
- huawei-mobile-services - 运行HMS地图应用程序时如何解决捆绑信息:错误代码:4?
- node.js - 发布失败时触发发布后脚本
- javascript - 如何解决这个错误?xhr.js:178 获取 https://www.googleapis.com/youtube/v3/search?q=Tesla 403
- c++ - 编译 gsl 库。出现错误:zsh: exec format error: ./compute.o
- stm32 - Stm32F4 ADC 模拟看门狗中断不起作用
- kubernetes - HPA 在 k8s 中显示未知