apache-spark - 计算 Spark DataFrame 中每一列的核密度

有没有办法计算 DataFrame 每一列的 KDE？

我有一个 DataFrame，其中每一列代表一个特征的值。Spark MLLib 的 KDE 函数需要一个RDD[Double]样本值。问题是我需要找到一种方法而不收集每一列的值，因为这会使程序减慢很多。

有谁知道我该如何解决这个问题？可悲的是，我所有的尝试都失败了。

标签： apache-sparkapache-spark-mllib

可能您可以使用示例函数（请参阅此处）创建一个新的 RDD，然后执行您的操作以获得最佳性能。