首页 > 解决方案 > 是否可以在 spark.read.csv 中包含目录信息?

问题描述

设想:

我用类似的东西写了CSV数据

df.write.partitionBy("foo", "bar").csv("hdfs:///quux/bletch")

目录中的 CSV 文件hdfs://quux/bletch/foo=baz/bar=moo都缺少foobar列。

我怎样才能读回来让这些列回来?请不要告诉我我必须单独阅读每个目录,手动添加数据并做一个大而胖的union...

标签: scalaapache-sparkapache-spark-sql

解决方案


如果您以相同的方式读取 CSV 文件,Spark 将为您创建这些列(除了您不必指定partitionBy)调用目录也不是问题load()

此示例将完全按照您的要求进行:

spark.read.format("csv").load("hdfs://quux/bleetch")

spark在哪里SparkSession


推荐阅读