首页 > 解决方案 > 计算 Spark DataFrame 中每一列的核密度

问题描述

有没有办法计算 DataFrame 每一列的 KDE?

我有一个 DataFrame,其中每一列代表一个特征的值。Spark MLLib 的 KDE 函数需要一个RDD[Double]样本值。问题是我需要找到一种方法而不收集每一列的值,因为这会使程序减慢很多。

有谁知道我该如何解决这个问题?可悲的是,我所有的尝试都失败了。

标签: apache-sparkapache-spark-mllib

解决方案


可能您可以使用示例函数(请参阅此处)创建一个新的 RDD,然后执行您的操作以获得最佳性能。


推荐阅读