amazon-s3 - 将 Pyspark Dataframe 作为 Parquet 写入 Databricks 上的 S3 只是挂在中间

我有一个大约 250 万亿行的 pyspark 数据框。我正在尝试使用其中一列作为分区将其编写为 AWS S3 存储桶中的镶木地板。但是即使运行了 16 个小时，它也只是挂在中间，这完全是荒谬的。我正在尝试找到实现这一目标的最佳方法，但尚未弄清楚。我正在尝试如下的基本脚本：

df.write.parquet("path", mode = "overwrite", partitionBy = "column-name")

标签： amazon-s3pysparkdatabricksparquet