python-3.x - 使用 sparkSession.createDataFrame 以 parquet 格式一次将多行写入 s3
问题描述
我正在使用以下方法成功创建单个帧/行并以镶木地板格式写入 s3
data_for_frame = [{"Category": 'Category A', "ID": 1, "Value": Decimal(12.40)},
{"Category": 'Category B', "ID": 2, "Value": Decimal(30.10)},
{"Category": 'Category C', "ID": 3, "Value": Decimal(100.01)}
]
dynamic_frame = sparkSession.createDataFrame(data_frame, schema_frame)
frame = sparkSession.createDataFrame(data_frame, schema_frame)
frame.write.parquet(s3_path)
如何一次写入多行以最小化每次写入?意味着我创建多行并以某种方式将一个大帧传递给 s3 一次尝试我试图将多个帧放入一个列表中,然后将其传递给frame.write
但没有出错AttributeError: 'list' object has no attribute 'write'
此外,如果我尝试使用单个帧循环写入 s3,则会出错
AnalysisException: 'path s3://stackoverflow-test-bucket/testing/default_bucket/year=2020/month=4/day=4 already exists.;'
解决方案
在尝试写入循环时需要添加mode
为append
.
- 默认如果 spark 发现
directory
我们正在编写的exists
抛出错误 - 我们应该选择
append
(将新文件添加到目录中)(或)overwrite
(删除并重新创建目录)目录。
frame.write.mode("append").parquet(s3_path)
推荐阅读
- ios - 二进制文件中没有架构。Lipo 未能检测到捆绑可执行文件中的任何架构 - 以前的答案不起作用
- java - Java线程中的BufferedWriter.append安全吗?
- python - django 列不存在,但没有 models.py,也没有找到任何更改
- r - 给定逻辑条件沿同一列的操作
- javascript - 如何使用 Tabs API 在 Material-UI 中水平对齐选项卡标签和选项卡图标
- python - 在递归函数中返回中间值是python的怪癖吗?
- ios - 强制 Firebase 使用蜂窝连接 [iOS]
- c++ - 这个成员函数属于哪个类?面向对象
- ruby-on-rails - 无法在测试中运行 ActionMailer 断言?
- reactjs - 如何更新 kepler.gl mapstyle