pyspark - 增加 HIVE 中的最大行大小
问题描述
我有这些配置的 pyspark 工作:
self.spark = SparkSession.builder.appName("example") \
.config("hive.exec.dynamic.partition", "true") \
.config("hive.exec.dynamic.partition.mode", "nonstrict") \
.config("hive.exec.max.dynamic.partitions", "5000000") \
.config("hive.exec.max.dynamic.partitions.pernode", "1000000") \
.enableHiveSupport() \
.getOrCreate()
我在任何地方都找不到如何设置配置以max row size
增加150mb
. 我只在 impala 中找到了该命令。
提前致谢。
解决方案
没有这样的配置,Hive
因为 Hive 不是全内存的,并且可以处理几乎无限大小的行。2Gb
单个字符串的大小可以达到最大,列数可以达到数万,尽管您可能需要(很可能)数千行才能放入单个容器内存中,但通常映射器或缩减器大小超过 1G 和可以增加。
推荐阅读
- css - PurgeCSS 和 Markdown 输出,如何将元素选择器列入白名单?
- css - Media Query overriding other media query when it shouldn't be
- javascript - 反应:不可能呈现获取状态的地图
- php - String to Int 应抛出而不是返回 0
- mongodb - MongoDB查询从嵌套数组中过滤子文档
- c - 为什么编译器认为 GCC 中嵌套函数(GNU 扩展)的地址“不是常量”?
- javascript - How to get an interface's properties from typescript
- apache - 如果文件夹存在,mod_rewrite 会尝试重定向
- windows - webrtc: how to simulate slow connections?
- forms - Symfony Form never returns a value