python - 无论如何要进行多线程pdf挖掘?
问题描述
我有一个代码在一堆 pdf 中寻找特定的字符串序列。问题是这个过程非常缓慢。(有时我会得到超过 50000 页的 pdf)
有没有办法做多线程?不幸的是,即使我进行了搜索,我也无法对线程代码做出正面或反面
import os
import shutil as sh
f = 'C:/Users/akhan37/Desktop/learning profiles/unzipped/unzipped_files'
import slate3k as slate
idee = "123456789"
os.chdir(f)
for file in os.listdir('.'):
print(file)
with open(file,'rb') as g:
extracted_text = slate.PDF(g)
#extracted_text = slate.PDF()
# print(Text)
if idee in extracted_text:
print(file)
else:
pass
运行时间很长。我不认为这是代码错误,而是我必须阅读超过 700 个 pdf 的事实
解决方案
我建议使用 pdfminer,您可以将文档对象转换为页面对象列表,您可以在不同的内核上进行多处理。
fp = open(pdf_path, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser, password)
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
laparams = LAParams() # set
resource_manager = PDFResourceManager()
device = PDFPageAggregator(resource_manager, laparams=laparams)
interpreter = PDFPageInterpreter(resource_manager, device)
all_attributes = []
list_of_page_obj = list(PDFPage.create_pages(document))
推荐阅读
- python - 有什么方法可以关闭嵌入图?-tkinter 和 matplotlib
- sas - 如何在SAS中将字符变量拆分为多个变量?
- sql - 同一外键值的列中至少有一个为真
- ios - 如何设置 GeometryReader 的框架高度
- math - 是否有任何将其图形最大值和 x 范围作为输入的统计分布?
- visual-studio-code - 使用 npm/yarn install 安装 Visual Studio Code 扩展
- mysql - 使用 SQL Query 或 Laravel SQL Query Builder 创建表/列组合
- reactjs - 如何在 expo React Native 中共享当前页面 URL
- java - AsyncPlayerChatEvent setCancelled 不起作用
- json - 为什么 fetch response 是 HTML 结构而不是 JSON 对象?我怎样才能直接在脚本标签中获取我的数据?