首页 > 解决方案 > 将 Pyspark Dataframe 作为 Parquet 写入 Databricks 上的 S3 只是挂在中间

问题描述

我有一个大约 250 万亿行的 pyspark 数据框。我正在尝试使用其中一列作为分区将其编写为 AWS S3 存储桶中的镶木地板。但是即使运行了 16 个小时,它也只是挂在中间,这完全是荒谬的。我正在尝试找到实现这一目标的最佳方法,但尚未弄清楚。我正在尝试如下的基本脚本:

df.write.parquet("path", mode = "overwrite", partitionBy = "column-name")

标签: amazon-s3pysparkdatabricksparquet

解决方案


推荐阅读