apache-spark - 如何调试为什么挂起阶段处于未知状态?
问题描述
我有一个 Spark 批处理作业,它读取一些 json 文件并将它们写入 Hive,然后查询其他一些 Hive 表,进行计算并将 Orc 格式的输出写回 Hive。
DAG 如下所示:
我正在使用Hadoop 2.7.3.2.6.5.0-292
并且 Spark 正在 YARN 上运行。
我查看了纱线日志、火花事件日志,但没有发现问题。只是重新运行作业会导致相同的行为。
问题是:阶段中的未知状态是什么意思,如何调试为什么工作在其中?
解决方案
推荐阅读
- ios - 使用 swift 进行本地化时停止翻转条形按钮项目
- python - 从 csv 转换日期格式。从 YYYY-MM-DD HH:MM:SS+00:00 到 YYYY-MM-DD 的 python 文件
- c# - 如何为 Grid RowDefinition 高度变化设置动画(当 Height="Auto" 时)
- c++ - 将可变参数模板与 C 样式可变参数函数混合时的模板参数推导
- typescript - 检查类型参数的类型
- amazon-web-services - 创建一个脚本来检索 AWS 实例元数据并将其存储在一个文件中。可以用yml写吗?
- python - 按组将 pandas 数据框日期列拆分为 start_date 和 end)date
- apache-nifi - 获取前一小时文件-GetFTP-NiFi
- c++ - 新手:我的第一个 c++ 演示无法成功编译
- firebase - 特定时间的 Firebase Web 推送通知