首页 > 解决方案 > 查看 Spark Dataframe 的分区信息

问题描述

可以有一个 Spark 的分区数组,DataFrame如下所示:

> df.rdd.partitions

有没有办法获取有关分区的更多信息?特别是,我想查看分区键和分区边界(分区中的第一个和最后一个元素)。

这只是为了更好地理解数据的组织方式。

这是我尝试过的:

> df.partitions.rdd.head

但是这个对象只有属性和方法equals hashCode,而且index.

标签: scalaapache-sparkdataframerdd

解决方案


如果数据不是太大,可以将它们写入磁盘,如下所示:

df.write.option("header", "true").csv("/tmp/foobar")

给定的目录不能存在。


推荐阅读