hdfs - PyArrow HDFS IO 错误的根本原因是什么?
问题描述
我正在运行 Dask-YARN 作业,该作业使用 PyArrow 的 HDFS IO 库将结果字典转储到 HDFS(代码在下面的回溯中显示)。但是,该作业会间歇性地遇到如下所示的错误,而不是每次运行,只是有时。我无法确定这个问题的根本原因,有人有什么想法吗?
File "/extractor.py", line 87, in __call__
json.dump(results_dict, fp=_UTF8Encoder(f), indent=4)
File "pyarrow/io.pxi", line 72, in pyarrow.lib.NativeFile.__exit__
File "pyarrow/io.pxi", line 130, in pyarrow.lib.NativeFile.close
File "pyarrow/error.pxi", line 87, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: HDFS CloseFile failed, errno: 255 (Unknown error 255) Please check that you are connecting to the correct HDFS RPC port
解决方案
事实证明,这是由于在延迟对象上重复计算“dask.get”任务造成的,这导致多个进程尝试写入同一个文件。
推荐阅读
- plot - 在 SAS 中绘制一维点图
- r - 根据组内参考按组更改值
- reactjs - 我需要访问单击按钮后弹出的新窗口
- python - 无法使用 matplotlib 设置脊线样式
- asp.net - 如何将数据从子页面传递到调用@Body 的页面?
- r - 在第一列的 R 中查询内存不足 60gb tsv,哪个数据库/方法?
- python - 用 BFS DFS 解决 8 个难题(使用 Python。需要一些建议)
- mysql - 如何呈现所有记录
- javascript - 这些 core-js 包有什么作用?(fix-re-wks、task、iter-define 等)
- ruby-on-rails - 如何在 Rails 中查看活动会话