首页 > 解决方案 > PyArrow HDFS IO 错误的根本原因是什么?

问题描述

我正在运行 Dask-YARN 作业,该作业使用 PyArrow 的 HDFS IO 库将结果字典转储到 HDFS(代码在下面的回溯中显示)。但是,该作业会间歇性地遇到如下所示的错误,而不是每次运行,只是有时。我无法确定这个问题的根本原因,有人有什么想法吗?

  File "/extractor.py", line 87, in __call__
    json.dump(results_dict, fp=_UTF8Encoder(f), indent=4)
  File "pyarrow/io.pxi", line 72, in pyarrow.lib.NativeFile.__exit__
  File "pyarrow/io.pxi", line 130, in pyarrow.lib.NativeFile.close
  File "pyarrow/error.pxi", line 87, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS CloseFile failed, errno: 255 (Unknown error 255) Please check that you are connecting to the correct HDFS RPC port

标签: hdfsdaskpyarrow

解决方案


事实证明,这是由于在延迟对象上重复计算“dask.get”任务造成的,这导致多个进程尝试写入同一个文件。


推荐阅读