首页 > 解决方案 > pdfminer 提取的文本包含 CID 字符

问题描述

我正在尝试将 pdf 提取到 txt 文件。输出文件非常成功,除了一些句子有(CID:number)之类的字符。起初我以为是因为土耳其字符,但结果还好。例如在下面的句子中

(cid:54)u sıcaklığı

第一个字符是 s(小写)。所以我不明白为什么其他“s”是正常的。谁能解释一下?我该如何解决?

这是我正在使用的功能

def pdfparser(data):
fp = open(data, 'rb')
rsrcmgr = PDFResourceManager()
retstr = io.StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.get_pages(fp):
    interpreter.process_page(page)
    data = retstr.getvalue()

print(data)

标签: pythonpdftextpdfminer

解决方案


推荐阅读