apache-spark - spark scala insert overwrite hive 花费的时间太长
问题描述
我正在尝试将 spark 数据框加载到配置单元中,如下所示:
df.repartition(col(col_nme)).write.mode("overwrite").format("ORC").option("compression","snappy").insertInto(hive_tbl)
pyspark 中的相同 df 加载时间为 2 分钟,但使用 scala 加载时间为 15 分钟。
有什么建议或线索吗?
解决方案
推荐阅读
- react-testing-library - 错误:无法找到角色为“alert”的元素(react-testing-library 示例)
- r - 如何将 'as.numeric' 应用于 'digit' 字符向量,并让 'alpha' 向量完好无损
- javascript - 如何将数据从一个组件传递到另一个组件
- java - 如何将我的 SWIG 生成的库所依赖的这个 SWIG 生成的共享库用于搜索 dlsym?
- json - 我有一个关于将值发送回主页的问题 [IOS]
- node.js - 无法将节点代码推送到 Heroku Git 存储库
- java - Java 对象连接
- python - 如何修复此语句,我的代码不适用于 tensorflow?
- c++ - ascii 字符时正则表达式意外结束
- sql - 如何从具有相同 id 的多行中选择仅一行的值并用 - 分隔它们?