python - pdfminer 提取的文本包含 CID 字符
问题描述
我正在尝试将 pdf 提取到 txt 文件。输出文件非常成功,除了一些句子有(CID:number)之类的字符。起初我以为是因为土耳其字符,但结果还好。例如在下面的句子中
(cid:54)u sıcaklığı
第一个字符是 s(小写)。所以我不明白为什么其他“s”是正常的。谁能解释一下?我该如何解决?
这是我正在使用的功能
def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)
for page in PDFPage.get_pages(fp):
interpreter.process_page(page)
data = retstr.getvalue()
print(data)
解决方案
推荐阅读
- python - Python正则表达式和最后的贪婪匹配
- android - TSC 打印机不打印 .BMP 文件
- python - Python:如何从 Pandas 中的 Dataframe 中绘制时间间隔
- javascript - 输入最小值和最大值应该相等
- kubernetes - Kuberenetes 可用的时间表
- java - 过程参数(JDBC EDB)
- .net - Serilog 不从 json 获取控制台配置
- groovy - Proc Groovy 将较大的 XML 解析为 SAS
- pgadmin - 从 pgadmin 4.30 降级到 4.29 的问题
- oracle - 从声明块中获取结果集