python - 使用 PdfFileReader 时不显示文本
问题描述
因此,假设我想从一个 pdf 文件中提取文本,例如: https ://www.lyxoretf.nl/pdfDocuments/Factsheets/RFACT_FR0010377028_EN_20190131_NLD.pdf?pfdrid_c=false&uid=4cc6aef9-9e75-46d7-9416-65cd7b2b5dd6&download =空
import io
import requests
from PyPDF2 import PdfFileReader
url = 'https://www.lyxoretf.nl/pdfDocuments/Factsheets/RFACT_FR0010377028_EN_20190131_NLD.pdf?pfdrid_c=false&uid=4cc6aef9-9e75-46d7-9416-65cd7b2b5dd6&download=null'
r = requests.get(url)
f = io.BytesIO(r.content)
reader = PdfFileReader(f)
contents = reader.getPage(0).extractText().split('\n')
不幸的是,使用相关链接中提供的代码不会返回文件中的文本。
有没有办法从这些类型的文件中提取文本?
解决方案
import fitz ## pip install PyMupdf
path = r'\Factsheets_RFACT_FR0010377028_EN_20190131_NLD.pdf' ## This should be stored somewhere in your system/laptop/computer
text=""
doc = fitz.open(path)
for page in doc:
text+=(page.getText())
推荐阅读
- sql - Kudu 表中具有两列的 Range 分区
- angular - 角度单元测试失败,但不是本地
- ssh - SSH 端口转发偶尔会失败
- laravel - Laravel:使用负载均衡器和 kubernetes 的后台作业中,用户的 IP 地址返回为 127.0.0.1
- python - 请求 Json 在 python 3.9 中抛出错误
- java - SeekBar RGB 选择器不断停止
- python - 如何基于在某些行中可能以相反顺序排列的两个不同列合并两个数据框?
- java - 码头错误“IllegalStateException:无方法:
... 在课堂上 ...Configuration$ClassList" - ios - 如何使用 Xamarin 表单获取 iOS 的设备序列号
- javascript - Javascript 中类似 Java 常量的 Map 对象