首页 > 解决方案 > 无法使用 spark writestream 将 json 文件写入 hdfs

问题描述

我正在向 apache spark 发送 json 消息,我可以在控制台中写入流。但我不能用hdfs写它。

火花版本:2.3.0

我正在使用 spark-shell ./spark-shell --packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0

import org.apache.spark.sql.SparkSession

val df = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "IP:9092").option("subscribe", "test").load()

df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)").writeStream.queryName("test").outputMode("append").format("json").option("path","file:/node1:8020/test/").option("checkpointLocation", "file:/node1:8020/test/").start().awaitTermination()

我在终端屏幕上看不到任何错误。但我在文件夹文件中看不到任何内容:/node1:8020/test/。我真的为此花费了太多时间,请任何帮助都可以。

谢谢

标签: scalaapache-sparkspark-streaming

解决方案


推荐阅读