首页 > 解决方案 > Spark Session 返回错误:Apache NiFi

问题描述

我们正在尝试使用 NiFi 运行 spark 程序。这是我们试图遵循的基本示例。

我们已经在127.0.0.1:8998.

ExecutiveSparkInteractive处理器用于运行示例 Spark 代码。

val gdpDF = spark.read.json("gdp.json")
val gdpRDD = gdpDF.rdd
gdpRDD.count()

LivyController127.0.0.1端口8998和配置Session Type : spark

当我们运行处理器时,我们得到以下错误:

Spark Session返回错误,将输出JSON对象作为流文件内容发送失败(惩罚后)

我们只想在 JSON 文件中输出行数。如何将其重定向到流文件?

NiFi用户日志:

2020-04-13 21:50:49,955 INFO [NiFi Web Server-85] org.apache.nifi.web.filter.RequestLogger 尝试请求(匿名)GET http://localhost:9090/nifi-api/flow/控制器/公告(来源 ip:127.0.0.1)

NiFi app.log

ERROR [Timer-Driven Process Thread-3] oanplivy.ExecuteSparkInteractive ExecuteSparkInteractive[id=9a338053-0173-1000-fbe9-e613558ad33b] Spark Session 返回错误,将输出 JSON 对象作为流文件内容发送失败(惩罚后)

标签: scalaapache-sparkapache-nifilivy

解决方案


我见过几个人在这个例子中挣扎。我建议遵循 Cloudera 社区的这个示例(特别是注意第 2 部分)。 https://community.cloudera.com/t5/Community-Articles/HDF-3-1-Executing-Apache-Spark-via-ExecuteSparkInteractive/ta-p/247772

我会关注的关键点:

  1. 你的火花一般能用吗
  2. 你的生活是否一般工作
  3. Spark示例代码好吗

推荐阅读