apache-spark - 如何使用 Spark 定义 ORC 条带大小?
问题描述
我正在将 Spark 作业提交到 EMR 集群以处理文件,然后将其写入为 Presto 将读取的 ORC 文件。
分析 thou 个文件,我发现了一个问题,即写入的条带大小比我预期的每个条带要少得多。
我知道在 Hive 中我可以设置表格的条带大小,但是在 Spark 中也有办法做到这一点吗?
解决方案
推荐阅读
- json - 如何将字符串键和数字或字符串值的映射反序列化为 HashMap
与serde? - r - 如何将 R 中循环返回的图像保存到硬盘驱动器?
- python - 如何在 Kubernetes 中找到分配给 V1ObjectMeta 的名称是什么?
- xamarin.forms - 如何使用 Xamarin.Forms.Maps(无 Xamarin.Forms.GoogleMaps)在地图中应用样式或更改颜色
- sqlite - 我应该如何组织具有唯一主键的表
- javascript - 为什么我会收到“TypeError:无法读取未定义的属性‘Sequelize’”
- javascript - 我想通过单击反应 js 中的按钮来选择输入框中的文本,但我的代码不起作用
- javascript - RxJS:在管道链的下游访问先前的值
- python - 使用 GraphQL +Ariadne + Flask 上传文件:graphql.error.graphql_error.GraphQLError: Operation data should be an JSON object
- windows-store-apps - Microsoft Store 开发人员(个人)的最低年龄是多少?