apache-spark - 在每个分区中使用 _SUCCESS 文件将分区数据集写入 HDFS/S3

首页 > 解决方案 > 在每个分区中使用 _SUCCESS 文件将分区数据集写入 HDFS/S3

问题描述

将分区数据集写入 HDFS/S3 时，成功完成后将 _SUCCESS 文件写入输出目录。我很好奇是否有办法将 _SUCCESS 文件写入每个分区目录？

标签： apache-sparkpysparkhdfs

解决方案

目前，您可以通过直接将文件写入path/to/table/partition_key1=foo/partition_key2=bar而不使用 Parquet writer 的partitionBy参数来获得所需的结果。

FWIW，我还认为_SUCCESS应该将文件写入每个分区，特别是考虑到SPARK-13207和SPARK -20236已得到解决。

推荐阅读