python - 当问题与 pdf 无关时,如何处理 Tika Server 警告 422?
问题描述
我的问题和这个人的问题很相似:
但不完全是。他的问题似乎在于阅读某些文档,但 Tika 工作正常,而对我来说,文档很好,但 Tika 失败了。我最近在 4 周前使用过以下 python 代码,没有任何问题:
from tika import unpack
result = unpack.from_file(file)
[注意:我无法缩进上面的代码。它会跳到下一部分]
当我使用这段代码时会发生什么,它只是输出一个空字典。我收到警告:
Tika 服务器返回状态:422
但没有错误信息。我所有的 PDF 文档都会发生这种情况,所以问题不在于 PDF 文档。此外,我过去经常使用这个完全相同的代码,没有任何问题。我完全没有使用 Tika 的经验,只使用这一小行代码,因为当我使用 Python 的 pdfviewer 时它不起作用。所以这是我发现的唯一一个可以阅读我感兴趣的 PDF 的包。我尝试重新下载 Tika,pip install Tika
但已经满足了要求。我也试过这个命令行:
java -jar tika-app.jar -s file.pdf
但我收到了错误信息:
错误:无法访问 jarfile tika-app.jar
我对如何处理该错误进行了一些研究,因此输入命令行:
java -jar tika-server-1.18.jar -h 0.0.0.0
但这返回了消息:
错误:无法访问 jarfile tika-server-1.18.jar
通常,当我使用 Tika 时,应用程序确实需要一段时间才能运行,而这次没有发生这种情况。也许问题只是我无法让应用程序运行。在线 Tika 文档假定读者已经有相当多的前端编程经验,而我的所有经验都是后端编程,所以我无法对 Tika 文档做出任何判断。
解决方案
默认情况下,tika 服务器进程一直在后台运行,并尝试在 /tmp 目录中找到tika-server.jar 。如果该目录被刷新并且 jar 不存在,您将看到 Tika 服务器返回状态:422错误。
您可以通过运行查看该过程: ps -eaf | grep 'tika'
在我们的例子中,杀死进程是有效的。
推荐阅读
- c - 可以在 C 中动态更改变量中的多个管道值吗?
- mysql - 我认为 PDO fetch() 和 fetchColumn() 互相阻塞
- android - Android 如何使用 TSC Alpha-3R 打印机打印图像?
- android - Android MVP中的Firebase远程配置单元测试?
- javascript - Javascript中大数的精度
- xml - Postgre SQL 数据转 XML 格式
- ios - 如何从 XCAsset 加载特定文件夹?
- javascript - 如何在反应中将全局 onerror 处理程序弹出到标签中,以捕获断开的链接?
- python - 使用python操作和替换第一个字符串并维护第二个字符串行
- python - 我们如何巧妙地将数据从文件夹转移到数据集