scala - 是否可以在 spark.read.csv 中包含目录信息?
问题描述
设想:
我用类似的东西写了CSV数据
df.write.partitionBy("foo", "bar").csv("hdfs:///quux/bletch")
目录中的 CSV 文件hdfs://quux/bletch/foo=baz/bar=moo
都缺少foo
和bar
列。
我怎样才能读回来让这些列回来?请不要告诉我我必须单独阅读每个目录,手动添加数据并做一个大而胖的union
...
解决方案
如果您以相同的方式读取 CSV 文件,Spark 将为您创建这些列(除了您不必指定partitionBy
)调用目录也不是问题load()
。
此示例将完全按照您的要求进行:
spark.read.format("csv").load("hdfs://quux/bleetch")
spark
在哪里SparkSession
。
推荐阅读
- javascript - 为什么使用 v-if 不进入转换但离开工作的元素内部的转换?
- webdav - Microsoft-WebDAV-MiniRedir 在复制文件时设置错误的日期值
- mysql - 在laravel中按降序排列
- php - $_FILES 只上传 1 个文件
- java - 我应该为这个拆分使用什么正则表达式?
- javascript - 如何使嵌套模式的字段在 yup 中是必需的
- docker - 我的 Airflow 没有连接到 localhost 8080,但它在 docker 上运行
- c# - 使用 .NET Core 3.1 运行 C# 脚本时出现 FileLoadException
- javascript - 如何从数字数组中获取前 10 个最高数字?
- html - CSS Head Nav 和下拉菜单对齐问题