r - Sparklyr:强制分配使用 n_distinct、match 等函数
问题描述
我有一个 Spark 数据框,并且正在使用 sparklyr。我想使用诸如n_distinct
(在 dplyr 上可用)和match
(例如在 y 列中查找 x 列的元素 e 的索引)之类的函数。现在我明白它并不真正符合并行计算的想法,因为如果数据帧的不同部分被单独处理,则很难使用诸如 n_distinct 和 match 之类的函数。
但是我有一个名为的变量group
,它定义了组,并且仅在我要使用的这些组中使用n_distinct
and match
; 因此,如果我能找到一种方法来告诉 Spark 如何将不同的行分配给不同的集群(这是正确的词吗?)并使用组内的函数,它就可以工作。
有可能做这样的事情吗?
感谢您的帮助 !
解决方案
推荐阅读
- react-native - navigation.getParam 不是函数。(在'navigation.getParam('message','hiiii')'中,'navigation.getParam'未定义)在本机反应中
- javascript - 为什么 Chrome 浏览器在控制台中向 navigator.appCodeName 提供“mozilla”?
- r - 使用 purrr 从嵌套的 tibble 中编写具有多个 sheetNames 的 excel 表
- python - 使用 NETCDF4 中的 MODIS 数据从 python 中的数据框中选择特定日期
- javascript - 锚链接在粘性标题后面的页面顶部。如何设置平滑滚动 JS 在滚动时始终保持 75px 的上边距?
- java - 如何从android kotlin中的recyclerview适配器获取arraylist
- html - 如何在不循环使用关键帧动画的情况下更改内容
- html - 访问时,我的网站无法在 iPhone12 pro 的谷歌应用程序中正确加载抛出一个链接
- c++ - 具有多种数据类型的数组
- react-native - React Native TypeError:未定义不是对象(评估'options.routeGetIdList [action.payload.name]')