apache-spark - 如何使用 Spark 定义 ORC 条带大小？

首页 > 解决方案 > 如何使用 Spark 定义 ORC 条带大小？

问题描述

我正在将 Spark 作业提交到 EMR 集群以处理文件，然后将其写入为 Presto 将读取的 ORC 文件。

分析 thou 个文件，我发现了一个问题，即写入的条带大小比我预期的每个条带要少得多。

我知道在 Hive 中我可以设置表格的条带大小，但是在 Spark 中也有办法做到这一点吗？

标签： apache-sparkpysparkbigdataorctrino

解决方案

推荐阅读