apache-spark - 为什么不推荐使用 Spark 属性 spark.sql.optimizer.metadataOnly
问题描述
我通过设置spark.sql.optimizer.metadataOnly
为真收到警告。我主要使用这个属性来查询分区列而不读取 parquet 文件。确定我想要读取哪些分区非常有用,例如非常快速地从分区列中获取不同的值。
将来如何SparkSessionExtensions
保留此属性,或者是否有另一种方法可以在不读取数据文件的情况下查询分区列?(我在 pyspark 中编码)
WARN SQLConf: The SQL config 'spark.sql.optimizer.metadataOnly' has been deprecated in Spark v3.0 and may be removed in the future. Avoid to depend on this optimization to prevent a potential correctness issue. If you must use, use 'SparkSessionExtensions' instead to inject it as a custom rule.
解决方案
推荐阅读
- sql - Fill values in SQL Server
- react-native - React Native Flex 布局与绝对大小
- typescript - TypeScript 真的是 JavaScript re: 函数的超集吗?
- c# - 如何以编程方式在 .net 备份或恢复 regedit 节点?
- c# - C# 强制包含可选参数?
- python - 迭代具有相同列标题的 pandas DataFrame
- css - 如何防止 grid-auto-flow 创建新列?
- git - git branch 和 checkout 什么都不做?
- r - ggplot facet_wrap as_labeller 不显示新序列
- ios - UIBarButtonItem 没有响应点击