首页 > 解决方案 > spark sql读取hive表时的分区数是多少?

问题描述

阅读完这个答案后,我知道从 Hive 读取数据时的分区数将由 HDFS 块大小决定。

但是我遇到一个问题:我使用spark sql读取一个hive表,并将数据保存到一个新的hive表中,但是两个hive表在spark sql加载时具有不同的分区号。

  val data = spark.sql("select * from src_table")
  val partitionsNum = data.rdd.getNumPartitions
  println(partitionsNum)
  val newData = data
newData.write.mode("overwrite").format("parquet").saveAsTable("new_table")

我不明白相同的数据,为什么不同的分区号。

标签: apache-spark

解决方案


推荐阅读