scala - 是否可以在 spark.read.csv 中包含目录信息？

设想：

我用类似的东西写了CSV数据

df.write.partitionBy("foo", "bar").csv("hdfs:///quux/bletch")

目录中的 CSV 文件hdfs://quux/bletch/foo=baz/bar=moo都缺少foo和bar列。

我怎样才能读回来让这些列回来？请不要告诉我我必须单独阅读每个目录，手动添加数据并做一个大而胖的union...

标签： scalaapache-sparkapache-spark-sql

如果您以相同的方式读取 CSV 文件，Spark 将为您创建这些列（除了您不必指定partitionBy）调用目录也不是问题load()。

此示例将完全按照您的要求进行：

spark.read.format("csv").load("hdfs://quux/bleetch")

spark在哪里SparkSession。