apache-spark - 计算 Spark DataFrame 中每一列的核密度
问题描述
有没有办法计算 DataFrame 每一列的 KDE?
我有一个 DataFrame,其中每一列代表一个特征的值。Spark MLLib 的 KDE 函数需要一个RDD[Double]
样本值。问题是我需要找到一种方法而不收集每一列的值,因为这会使程序减慢很多。
有谁知道我该如何解决这个问题?可悲的是,我所有的尝试都失败了。
解决方案
可能您可以使用示例函数(请参阅此处)创建一个新的 RDD,然后执行您的操作以获得最佳性能。
推荐阅读
- unit-testing - 使用 Echo 路由器在 golang 中为 WS 创建单元测试
- html - 为什么从 blob 存储链接时不显示 SVG 图像?
- angular - 从库发出的 Angular HTTP 请求被忽略
- python - 如何从 Sphinx 的默认搜索中排除 RST 文件?
- vb.net - NuGet 包无法将实际的 dll.deploy 部署到 IIS
- php - Facebook/Twitter 分享链接:仅来自帖子内容的图片或 Youtube 视频
- ios - 未在 iOS 上调用父自定义渲染器
- ios - 将 BGTaskScheduler API 与新的 iOS 14 应用程序一起使用。如何在没有 AppDelegate 的情况下注册任务?
- amazon-web-services - AWS Elasticbeanstalk 部署后脚本问题
- highcharts - Highstock:我们可以将烛台图旋转 90 度吗?