java - 如何将 tesseract-ocr 与为 Azure Functions 构建的无服务器 Java 应用程序捆绑在一起?
问题描述
我正在添加 Apache Tika,用于从文档和图像(使用 TikaOcr)中提取文本到基于 AppService 之上的 Azure Functions 中的现有服务。现在,Apache Tika 需要将 tesseract 安装在本地机器上。为了克服这个问题,我使用 apt-get 设置(通过 ssh-ing)到服务器中,但是(据我了解)设置是在基础 AppService 层上执行的。结果,并发 OCR 命令的调用确实减慢了我的功能。由于没有 Tesseract 的官方二进制文件,我想知道以下是否可能:
- 将 Tesseract 与我的 Functions 应用程序捆绑在一起
- 使用 Tesseract 构建 docker 镜像。
- 使用 tesseract 运行时映像 (tesseract-shadow/tesseract-ocr-re) 构建多容器 docker 应用
我尝试使用具有以下 dockerfile 的 tesseract 构建 docker 映像(按照此处的说明),但 Apache Tika 无法使用此执行 OCR。
ARG JAVA_VERSION=11
# This image additionally contains function core tools – useful when using custom extensions
#FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION-core-tools AS installer-env
FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION-build AS installer-env
RUN apt-get update && apt-get install -y tesseract-ocr
COPY . /src/functions-tika-extraction
RUN cd /src/functions-tika-extraction && \
mkdir -p /home/site/wwwroot && \
mvn clean package && \
cd ./target/azure-functions/ && \
cd $(ls -d */|head -n 1) && \
cp -a . /home/site/wwwroot
# This image is ssh enabled
FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION-appservice
# This image isn't ssh enabled
#FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION
ENV AzureWebJobsScriptRoot=/home/site/wwwroot \
AzureFunctionsJobHost__Logging__Console__IsEnabled=true
COPY --from=installer-env ["/home/site/wwwroot", "/home/site/wwwroot"]
我对 Docker 和 Azure 平台还很陌生,所以我可能在这里遗漏了一些东西,但是我怎样才能让我的 Azure Functions 使用 Docker 或任何其他方法与 Tesseract 一起工作?
解决方案
在阅读了 docker 文档并了解了一些有关 docker 的基础知识之后,我终于可以弄清楚 tesseract 实际上是安装在 Azure AppService 层之下的,它以某种方式不允许容器访问它。如果将 Tesseract 安装在最上层,则可以通过将 Tesseract 包含在 Dockerfile 的底部将其提供给 Azure Functions,如下所示:
ARG JAVA_VERSION=11
FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION-build AS installer-env
# remove this line
# RUN apt-get update && apt-get install -y tesseract-ocr
COPY . /src/functions-tika-extraction
RUN cd /src/functions-tika-extraction && \
mkdir -p /home/site/wwwroot && \
mvn clean package && \
cd ./target/azure-functions/ && \
cd $(ls -d */|head -n 1) && \
cp -a . /home/site/wwwroot
# This image is ssh enabled
FROM mcr.microsoft.com/azure-functions/java:3.0-java$JAVA_VERSION-appservice
# add the line here
RUN apt-get update && apt-get install -y tesseract-ocr
ENV AzureWebJobsScriptRoot=/home/site/wwwroot \
AzureFunctionsJobHost__Logging__Console__IsEnabled=true
COPY --from=installer-env ["/home/site/wwwroot", "/home/site/wwwroot"]
虽然它确实满足了我将 tesseract-ocr 与 Azure Functions Java 应用程序捆绑在一起的要求,但不幸的是,调用仍然很慢。
推荐阅读
- firebase - Firebase first_open 计数变少
- fonts - Phaser 3:文本字体大小
- lua - love2d(lua)中的碰撞检测
- woocommerce - 将 woocommerce 变体 GTIN 添加到结构化数据
- github - Github 不会在手动运行工作流的工作流运行旁边显示分支名称
- testing - 在单击远程启动时在 jmeter 分发测试中出现连接超时错误,但脚本 r 工作正常
- python - Spyder 5.1.5 版问题
- wordpress - WP All 导出 ACF 图片 url
- api - NestJS在dto解析错误响应后删除文件
- javascript - 从Javascript中的一组数组生成一串值