python - 有人可以帮我理解这个错误在 pdfminer 的 pdf2txt 中的含义: AttributeError: 'PDFObjRef' object has no attribute 'decode'
问题描述
我正在使用 pdfminer 的 pdf2txt.py 从不同的 pdf 中提取文本。该算法在很多情况下都能很好地工作,但我收到了这个错误,我不确定我能做些什么来让 pdfminer 工作。
AttributeError:“PDFObjRef”对象没有属性“解码”
我在其他文档上运行了相同的命令,这是我唯一遇到此错误的命令。
我只是从命令行运行它,所以没有其他代码可以显示:
pdf2txt.py -t xml -F -1.0 test.pdf
这是 pdf2txt.py 的完整输出
<?xml version="1.0" encoding="utf-8" ?>
<pages>
Traceback (most recent call last):
File "/usr/local/bin/pdf2txt.py", line 116, in <module>
if __name__ == '__main__': sys.exit(main(sys.argv))
File "/usr/local/bin/pdf2txt.py", line 110, in main
interpreter.process_page(page)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 834, in process_page
self.render_contents(page.resources, page.contents, ctm=ctm)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 844, in render_contents
self.init_resources(resources)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 350, in init_resources
self.fontmap[fontid] = self.rsrcmgr.get_font(objid, spec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 200, in get_font
font = self.get_font(None, subspec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdfinterp.py", line 191, in get_font
font = PDFCIDFont(self, spec)
File "/Library/Python/2.7/site-packages/pdfminer2-20151206-py2.7.egg/pdfminer/pdffont.py", line 643, in __init__
self.cidcoding = '%s-%s' % (self.cidsysteminfo.get('Registry', b'unknown').decode("latin1"),
AttributeError: 'PDFObjRef' object has no attribute 'decode'
任何见解表示赞赏!
解决方案
推荐阅读
- html - 如何在滚动窗口滚动条上显示隐藏元素以及动画?
- c# - 使用asp.net mvc在excel文件中导出/下载15000行
- google-chrome-extension - Chrome 扩展和访问 Google Drive
- c# - WPF 弹出窗口和 WindowsFormsHost 问题(在弹出窗口外单击时无响应或未关闭)
- javascript - 将秒转换为时间戳,并比较值、Firebase、React
- service-worker - 尝试使用工作箱本地文件而不是 CDN 时出错
- angular - Office.js 和 @microsoft/mgt 不能一起工作
- linux - 在 7z 文件中的文件内查找模式
- amazon-web-services - 无法从 EKS 中创建的负载均衡器访问部署
- python - 在烧瓶管理中插入两个模型的一种形式