首页 > 解决方案 > 在每个分区中使用 _SUCCESS 文件将分区数据集写入 HDFS/S3

问题描述

将分区数据集写入 HDFS/S3 时,成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录?

标签: apache-sparkpysparkhdfs

解决方案


目前,您可以通过直接将文件写入path/to/table/partition_key1=foo/partition_key2=bar而不使用 Parquet writer 的partitionBy参数来获得所需的结果。

FWIW,我还认为_SUCCESS应该将文件写入每个分区,特别是考虑到SPARK-13​​207和SPARK -20236已得到解决。


推荐阅读