首页 > 解决方案 > Spark - 无法计算字符串列的 parquet 最小/最大统计信息

问题描述

我为 spark 作业启用了“spark.parquet.strings.signed-min-max.enabled”属性。在检查最小/最大 parquet 统计信息时,仍然不会为 parquet 数据的字符串列计算或显示统计信息。

我看到以下字符串列。VLE:PLAIN DICTIONARY ST:[此列无统计信息]

我使用以下命令来检查统计信息:

hadoop jar parquet-tools-1.9.0.jar dump -d -n 

是否可以启用字符串列的统计信息?如果是这样,是否应该更改任何配置或编码?欢迎任何建议。谢谢。

标签: apache-sparkparquet

解决方案


推荐阅读