apache-spark - 通过 Spark 将文件附加到现有的 S3 存储桶文件夹
问题描述
我在执行一些转换后Spark
需要将数据写入存储S3
桶的地方工作。我知道,如果文件夹路径已经存在,则在将 dtaa 写入HDFS/S3
via时Spark
会引发异常。所以在我们的例子中,如果S3://bucket_name/folder
在将数据写入同一个S3
桶路径时已经存在,它将抛出异常。
现在可能的解决方案是OVERWRITE
在写入时使用模式Spark
。但这会删除其中已经存在的所有文件。APPEND
我想在同一个文件夹中拥有一种功能。因此,如果文件夹已经有一些文件,那么它只会向其中添加更多文件。
我不确定开箱即用的 API 是否提供任何此类功能。当然有一个选项,我可以在文件夹中创建一个临时文件夹并保存文件。之后,我可以将该文件移动到其父文件夹并删除临时文件夹。但这种方法并不是最好的。
因此,请建议如何进行此操作。
解决方案
推荐阅读
- vhdl - 在 VHDL 中使用 modelsim 编程加法器时出错
- java - 调用 getter 时出现 java.lang.NullPointerException
- c++ - 为什么在 C++20 中 std::vector 运算符 == 不适用于具有不同分配器的向量?
- ios - 如何在 SwiftUI 中使用 DatePicker 创建警报
- serverless-framework - 无服务器:如何在没有 .serverless 目录的情况下删除/部署部署以进行团队协作
- java - 将值添加到列表并转换为 BigInteger - Java
- php - Issue setting server up to log php errors in specified file
- java - 如何将抽象数字初始化为0?
- sql - Postgres 错误:运算符不存在:文本 ~~ bigint
- powershell - Powershell 核心和 Powershell 模块