apache-spark - 使用 spark 写入大约 100 GB 的大型数据集，只有一个分区用于配置单元

首页 > 解决方案 > 使用 spark 写入大约 100 GB 的大型数据集，只有一个分区用于配置单元

我正在尝试使用 spark 将大型数据集写入分区的配置单元表（按日期分区）。数据集仅产生一个日期，因此只有一个分区。写入表需要很长时间。它也会在写作时造成洗牌。我的代码不包含任何连接。它只有一些地图功能、过滤器和联合。如何高效地将此类数据写入 hive 表？在此处检查 spark UI 的图像

标签： apache-sparkhive