首页 > 解决方案 > 当问题与 pdf 无关时,如何处理 Tika Server 警告 422?

问题描述

我的问题和这个人的问题很相似:

422 Tika 服务器响应?蒂卡蟒蛇

但不完全是。他的问题似乎在于阅读某些文档,但 Tika 工作正常,而对我来说,文档很好,但 Tika 失败了。我最近在 4 周前使用过以下 python 代码,没有任何问题:

from tika import unpack
result = unpack.from_file(file)

[注意:我无法缩进上面的代码。它会跳到下一部分]

当我使用这段代码时会发生什么,它只是输出一个空字典。我收到警告:

Tika 服务器返回状态:422

但没有错误信息。我所有的 PDF 文档都会发生这种情况,所以问题不在于 PDF 文档。此外,我过去经常使用这个完全相同的代码,没有任何问题。我完全没有使用 Tika 的经验,只使用这一小行代码,因为当我使用 Python 的 pdfviewer 时它不起作用。所以这是我发现的唯一一个可以阅读我感兴趣的 PDF 的包。我尝试重新下载 Tika,pip install Tika但已经满足了要求。我也试过这个命令行:

java -jar tika-app.jar -s file.pdf

但我收到了错误信息:

错误:无法访问 jarfile tika-app.jar

我对如何处理该错误进行了一些研究,因此输入命令行:

java -jar tika-server-1.18.jar -h 0.0.0.0

但这返回了消息:

错误:无法访问 jarfile tika-server-1.18.jar

通常,当我使用 Tika 时,应用程序确实需要一段时间才能运行,而这次没有发生这种情况。也许问题只是我无法让应用程序运行。在线 Tika 文档假定读者已经有相当多的前端编程经验,而我的所有经验都是后端编程,所以我无法对 Tika 文档做出任何判断。

标签: pythonapache-tika

解决方案


默认情况下,tika 服务器进程一直在后台运行,并尝试在 /tmp 目录中找到tika-server.jar 。如果该目录被刷新并且 jar 不存在,您将看到 Tika 服务器返回状态:422错误。

您可以通过运行查看该过程: ps -eaf | grep 'tika'

在我们的例子中,杀死进程是有效的。


推荐阅读