apache-spark - Spark - 无法计算字符串列的 parquet 最小/最大统计信息
问题描述
我为 spark 作业启用了“spark.parquet.strings.signed-min-max.enabled”属性。在检查最小/最大 parquet 统计信息时,仍然不会为 parquet 数据的字符串列计算或显示统计信息。
我看到以下字符串列。VLE:PLAIN DICTIONARY ST:[此列无统计信息]
我使用以下命令来检查统计信息:
hadoop jar parquet-tools-1.9.0.jar dump -d -n
是否可以启用字符串列的统计信息?如果是这样,是否应该更改任何配置或编码?欢迎任何建议。谢谢。
解决方案
推荐阅读
- python - 获得关键字参数“标签”的多个值
- javascript - 有没有办法将数组的变量名打印为字符串?(JavaScript)
- django - 将模型和表单拆分为子文件夹结构 Django 2.0+
- node.js - Mongodb网络错误无法在第一次尝试连接到数据库
- math - 找到这个二次方程组的解析解
- java - 如何将可序列化对象发送到另一个 android 应用程序
- delphi - SelectDirectory() 不起作用。它总是返回 false
- r - R 在读取 csv 文件(Unicode)时添加了奇怪的符号
- protractor - 从网格中的一列获取文本
- android - 如何使用 android init.rc (vendor.rc) 读取文件中的值