首页 > 解决方案 > Apache Spark:在 parquet 文件中包含分区列

问题描述

我有一个按月划分的庞大数据集。我可以使用 spark.write.parquet 方法编写镶木地板文件。尝试使用火花本身阅读时效果很好。Parquet 文件没有分区列,它由它们所在的文件夹表示。当尝试使用外部程序(如 polybase)读取镶木地板文件时,我们无法确定文件所属的月份。

有什么方法可以强制 spark 将分区列包含在镶木地板文件中?还有其他选择吗?

标签: apache-sparkapache-spark-sqlazure-databricks

解决方案


推荐阅读