首页 > 解决方案 > 为什么不推荐使用 Spark 属性 spark.sql.optimizer.metadataOnly

问题描述

我通过设置spark.sql.optimizer.metadataOnly为真收到警告。我主要使用这个属性来查询分区列而不读取 parquet 文件。确定我想要读取哪些分区非常有用,例如非常快速地从分区列中获取不同的值。

将来如何SparkSessionExtensions保留此属性,或者是否有另一种方法可以在不读取数据文件的情况下查询分区列?(我在 pyspark 中编码)

WARN SQLConf: The SQL config 'spark.sql.optimizer.metadataOnly' has been deprecated in Spark v3.0 and may be removed in the future. Avoid to depend on this optimization to prevent a potential correctness issue. If you must use, use 'SparkSessionExtensions' instead to inject it as a custom rule.

标签: apache-sparkpyspark

解决方案


推荐阅读