首页 > 解决方案 > 如何使用 Spark 定义 ORC 条带大小?

问题描述

我正在将 Spark 作业提交到 EMR 集群以处理文件,然后将其写入为 Presto 将读取的 ORC 文件。

分析 thou 个文件,我发现了一个问题,即写入的条带大小比我预期的每个条带要少得多。

我知道在 Hive 中我可以设置表格的条带大小,但是在 Spark 中也有办法做到这一点吗?

标签: apache-sparkpysparkbigdataorctrino

解决方案


推荐阅读