首页 > 解决方案 > 为什么删除或选择列在 Spark Structured Streaming 中无法正常工作?

问题描述

我有以下代码和结果。在这里,我正在使用 Databricks 的自动加载器。

在此处输入图像描述

我得到的结果不正确,因为如果我不删除列(df2),我会得到以下结果。

在此处输入图像描述

请注意,我注意到与select. 我在这里犯了什么错误?

标签: apache-sparkpysparkdatabricksspark-structured-streaming

解决方案


我发现了问题。我需要明确指定第一行是标题。所以,我把相关行改成了这个,

df = (spark.readStream.format("cloudFiles").option("cloudFiles.format", "csv")
      .option("header", "true").schema(schema).load("/FileStore/tables/movies7"))

推荐阅读