scala - Spark 数据集写入镶木地板文件需要很长时间
问题描述
spark scala App 卡在下面的语句中,并且由于超时设置,它在超时前运行了 3 个多小时。任何有关如何理解和解释 yarnUI 中的作业执行并调试此问题的指针都值得赞赏。
数据集 .repartition(100,$"Id") .write .mode(SaveMode.Overwrite) .partitionBy(dateColumn) .parquet(temppath)
我有一堆连接,最大的数据集约为 1500 万行,最小的数据集 < 100 行。我尝试了多种选择,例如增加执行内存和火花驱动程序内存,但到目前为止没有运气。注意我已经缓存了我多次使用的数据集,并且最终的数据集存储级别设置为 Memory_desk_ser。
不确定下面的执行人是否会总结
执行程序(摘要) Total_tasks 输入 shuffle_read shuffle_write 7749 98 GB 77GB 106GB
根据查询计划或任何其他信息,感谢有关如何着手和理解瓶子的任何指示。
解决方案
推荐阅读
- excel - 合并多个工作簿的宏,适用于 excel 2010 但不适用于 2016
- python - 如何用python中的图像修改某些轴的属性?
- swift - 为什么@NSManaged 属性可以存储在扩展中?
- r - anaconda 上与 MRO 不兼容的软件包
- arrays - 状态自行改变?
- c++ - 如何通过生成复合数来修复我的 Prime 生成程序
- node.js - 如何使用带有 NodeJS 的动态模板的 SendGrid API
- angular - MSAL 用户声称特殊字符解码错误
- vb.net - 如何通过 vb.net 服务与用户交互?
- python-3.x - 未在 Git Bash 中激活 Conda 环境