apache-spark - Sparklyr 加权中值计算
问题描述
我正在尝试计算 Sparklyr 中的加权平均值,但weighted.median
R 中的函数似乎与 Sparklyr 不兼容。我尝试使用命令将其从 sparklyr 中拉出,collect()
然后使用常规 r 进行加权中值,但它挂起然后因内存不足错误而崩溃,因为数据非常庞大,实际上在分布式 Hadoop 环境中需要 Sparklyr。我尝试将列数和行数减少到最低限度,但我只是无法弄清楚如何在不将其移出 Sparklyr 的情况下获得加权中位数 IN Sparklyr。
我没有任何代码要显示,因为当提取完整数据时,我将其从 Spark 中拉出并将其放入单个服务器上的常规 R 的方法会崩溃。将其从 Sparklyr 拉到常规 R 不是一种可行的方法。
解决方案
推荐阅读
- swift - Swift 类:Bank - 创建银行应用程序
- laravel-6 - Laravel 项目未在服务器上运行
- javascript - 如何将 Laravel foreach 放入 JS 文件中?
- java - 替换字符串中的出现
- php - 在 PHP 中使用 Guzzle 设置电子表格标题
- mongodb - 用给定图像预测一个数字(0 到 1)
- python - 如何使用for循环下载多个文件
- linux - 多台机器之间的套接字通信
- python - 在例如数据框column1中的txt文件中查找字符串并将其替换为数据框column2中的字符串
- python - 禁用 CSS 时无法收集网站源代码