首页 > 解决方案 > 使用 spark 写入大约 100 GB 的大型数据集,只有一个分区用于配置单元

问题描述

我正在尝试使用 spark 将大型数据集写入分区的配置单元表(按日期分区)。数据集仅产生一个日期,因此只有一个分区。写入表需要很长时间。它也会在写作时造成洗牌。我的代码不包含任何连接。它只有一些地图功能、过滤器和联合。如何高效地将此类数据写入 hive 表?在此处检查 spark UI 的图像

标签: apache-sparkhive

解决方案


推荐阅读