apache-spark - Hive 分区到 Spark 分区

出于效率原因，我们需要处理具有分区数据的大数据集。数据源位于 Hive 中，但具有不同的分区标准。换句话说，我们需要将数据从 Hive 检索到 Spark，并在 Spark 中重新分区。

但是 Spark 中存在一个问题，当数据被持久化（parquet 或 ORC）时，会导致重新排序/重新分配分区。因此，我们在 Spark 中的新分区丢失了。

作为替代方案，我们正在考虑在新的 Hive 表中构建新的分区。问题是：是否可以从 Hive 分区映射 Spark 分区（用于读取）？

标签： apache-sparkhive

分区发现 --> 可能是您正在寻找的：

" 将 path/to/table 传递给 SparkSession.read.parquet 或 SparkSession.read.load，Spark SQL 将自动从路径中提取分区信息。"