scala - Spark 数据集写入镶木地板文件需要很长时间

spark scala App 卡在下面的语句中，并且由于超时设置，它在超时前运行了 3 个多小时。任何有关如何理解和解释 yarnUI 中的作业执行并调试此问题的指针都值得赞赏。

数据集 .repartition(100,$"Id") .write .mode(SaveMode.Overwrite) .partitionBy(dateColumn) .parquet(temppath)

我有一堆连接，最大的数据集约为 1500 万行，最小的数据集 < 100 行。我尝试了多种选择，例如增加执行内存和火花驱动程序内存，但到目前为止没有运气。注意我已经缓存了我多次使用的数据集，并且最终的数据集存储级别设置为 Memory_desk_ser。

不确定下面的执行人是否会总结

执行程序（摘要） Total_tasks 输入 shuffle_read shuffle_write 7749 98 GB 77GB 106GB

根据查询计划或任何其他信息，感谢有关如何着手和理解瓶子的任何指示。

标签： scalaapache-spark