首页 > 解决方案 > Google 云上 dataproc gui 版本中的 Hadoop 作业错误

问题描述

我正在尝试使用org.apache.hadoop.examples.WordCount为 wordcount 创建一个作业,但它显示错误:

我正在附上我的工作配置的图像以及我的存储桶中的文件在哪里(我使用的是存储桶而不是 hdfs)

使用的作业配置:

这些是我的工作配置

文件存储在桶中: 屏幕截图中的第二个文件是 hadoop-mapreduce-examples.ar

hadoop-mapreduce-examples.jar 的 URI:在此处输入图像描述

我使用上述配置时遇到的错误: 作业失败并显示消息 [线程中的异常

作业输出: 作业输出, 驱动程序输出文件: 驱动程序输出文件

标签: hadoopgoogle-cloud-dataproc

解决方案


问题是默认情况下 Hadoop 不会写入现有路径,除非特别要求“覆盖”模式。你有两个选择:

  • 在运行示例之前删除输出路径
  • 每次运行使用另一个输出路径

通常,作业的输出可以在 Google Cloud 控制台中找到 - 在 Dataproc 下查找“作业”页面,或在集群页面下查找作业选项卡。此外,如此处所示,输出保存到 GCS,您可以随时从那里检索它。


推荐阅读