pyspark - 将 parquet 文件写入 Google Cloud 的时间异常长

我在 dataproc 集群上使用 pyspark 数据框来生成功能并将 parquet 文件作为输出写入 Google Cloud Storage。我面临两个问题-

我提供了 22 个执行器，每个执行器 3 个内核和每个执行器约 13G RAM。然而，当我提交作业时，只有 10 个执行者被解雇。dataproc 集群包含 10 个工作节点和每个节点 8 个内核以及每个节点 30 GB 内存。
当我编写单个功能文件并记录总时间时，它明显低于将所有功能一起写入单个文件所需的时间。我尝试过更改分区，但也无济于事。

这就是我编写镶木地板文件的方式：

df.select([feature_lst]).write.parquet(gcs_path+outfile,mode='overwrite')

数据大小 - 20M+ 记录，30+ 数字特征

火花用户界面图像：

当前阶段是我将所有功能一起编写 - 明显高于所有先前阶段的总和。

如果有人可以对上述两个问题提供任何见解，我将不胜感激。

标签： pyspark