首页 > 解决方案 > 从多个图像中提取文本

问题描述

我想从几个图像中提取文本。
我想在colab中做。
我知道如何用一张图片做到这一点:https
://github.com/bhadreshpsavani/ExploringOCR/blob/master/OCRusingTesseract.ipynb 但是如何在一个循环中做到这一点,因为我有一百多张图片?
提前致谢!

标签: cycletext-extraction

解决方案


我在根目录的 colab.research 中上传了我的图像,并使用以下代码解决了此任务:

image_ext = ['.jpg', '.png', '.jpeg']
directory = '/'
for file in os.listdir(directory):
  ext = os.path.splitext(file)[-1].lower()
  if ext not in image_ext:
    continue
  filename = os.path.join(directory, file)
  
  extracted_information = pytesseract.image_to_string(Image.open(filename))
  print(extracted_information)

推荐阅读