首页 > 解决方案 > spark scala insert overwrite hive 花费的时间太长

问题描述

我正在尝试将 spark 数据框加载到配置单元中,如下所示:

df.repartition(col(col_nme)).write.mode("overwrite").format("ORC").option("compression","snappy").insertInto(hive_tbl)

pyspark 中的相同 df 加载时间为 2 分钟,但使用 scala 加载时间为 15 分钟。

有什么建议或线索吗?

标签: apache-sparkpysparkhiveapache-spark-sql

解决方案


推荐阅读