首页 > 解决方案 > 使用 sparkSession.createDataFrame 以 parquet 格式一次将多行写入 s3

问题描述

我正在使用以下方法成功创建单个帧/行并以镶木地板格式写入 s3

data_for_frame = [{"Category": 'Category A', "ID": 1, "Value": Decimal(12.40)},
        {"Category": 'Category B', "ID": 2, "Value": Decimal(30.10)},
        {"Category": 'Category C', "ID": 3, "Value": Decimal(100.01)}
        ]


dynamic_frame = sparkSession.createDataFrame(data_frame, schema_frame)
frame = sparkSession.createDataFrame(data_frame, schema_frame)
frame.write.parquet(s3_path)

如何一次写入多行以最小化每次写入?意味着我创建多行并以某种方式将一个大帧传递给 s3 一次尝试我试图将多个帧放入一个列表中,然后将其传递给frame.write但没有出错AttributeError: 'list' object has no attribute 'write'

此外,如果我尝试使用单个帧循环写入 s3,则会出错

AnalysisException: 'path s3://stackoverflow-test-bucket/testing/default_bucket/year=2020/month=4/day=4 already exists.;'

标签: python-3.xapache-sparkpysparkparquet

解决方案


在尝试写入循环时需要添加modeappend.

  • 默认如果 spark 发现directory我们正在编写的exists抛出错误
  • 我们应该选择append(将新文件添加到目录中)(或)overwrite(删除并重新创建目录)目录。

frame.write.mode("append").parquet(s3_path)

推荐阅读