首页 > 解决方案 > Sparklyr 加权中值计算

问题描述

我正在尝试计算 Sparklyr 中的加权平均值,但weighted.medianR 中的函数似乎与 Sparklyr 不兼容。我尝试使用命令将其从 sparklyr 中拉出,collect()然后使用常规 r 进行加权中值,但它挂起然后因内存不足错误而崩溃,因为数据非常庞大,实际上在分布式 Hadoop 环境中需要 Sparklyr。我尝试将列数和行数减少到最低限度,但我只是无法弄清楚如何在不将其移出 Sparklyr 的情况下获得加权中位数 IN Sparklyr。

我没有任何代码要显示,因为当提取完整数据时,我将其从 Spark 中拉出并将其放入单个服务器上的常规 R 的方法会崩溃。将其从 Sparklyr 拉到常规 R 不是一种可行的方法。

标签: apache-sparkstatisticsmediansparklyr

解决方案


推荐阅读