首页 > 解决方案 > Spark 数据集写入镶木地板文件需要很长时间

问题描述

spark scala App 卡在下面的语句中,并且由于超时设置,它在超时前运行了 3 个多小时。任何有关如何理解和解释 yarnUI 中的作业执行并调试此问题的指针都值得赞赏。

数据集 .repartition(100,$"Id") .write .mode(SaveMode.Overwrite) .partitionBy(dateColumn) .parquet(temppath)

我有一堆连接,最大的数据集约为 1500 万行,最小的数据集 < 100 行。我尝试了多种选择,例如增加执行内存和火花驱动程序内存,但到目前为止没有运气。注意我已经缓存了我多次使用的数据集,并且最终的数据集存储级别设置为 Memory_desk_ser。

不确定下面的执行人是否会总结

执行程序(摘要) Total_tasks 输入 shuffle_read shuffle_write 7749 98 GB 77GB 106GB

根据查询计划或任何其他信息,感谢有关如何着手和理解瓶子的任何指示。

标签: scalaapache-spark

解决方案


推荐阅读