首页 > 解决方案 > Apache Spark 获取在内存中创建的 RDD 的数量

问题描述

我正在将 MLlib 与 Python(Pyspark)一起使用,并且想了解在执行我的代码之前在内存中创建的 RDD 的数量。我正在对 RDD 执行事务和操作。所以只想了解在内存中创建的 RDD 的总数。

标签: apache-sparkpysparkrddapache-spark-mllib

解决方案


RDD 的数量取决于您的程序。

但我认为在这里您想知道创建 RDD 的分区数:

为此,您可以使用:rdd.getNumPartitions()

参考:在 pyspark RDD 上显示分区

如果有效,请点赞


推荐阅读