首页 > 解决方案 > Sparklyr:强制分配使用 n_distinct、match 等函数

问题描述

我有一个 Spark 数据框,并且正在使用 sparklyr。我想使用诸如n_distinct(在 dplyr 上可用)和match(例如在 y 列中查找 x 列的元素 e 的索引)之类的函数。现在我明白它并不真正符合并行计算的想法,因为如果数据帧的不同部分被单独处理,则很难使用诸如 n_distinct 和 match 之类的函数。

但是我有一个名为的变量group,它定义了组,并且仅在我要使用的这些组中使用n_distinctand match; 因此,如果我能找到一种方法来告诉 Spark 如何将不同的行分配给不同的集群(这是正确的词吗?)并使用组内的函数,它就可以工作。

有可能做这样的事情吗?

感谢您的帮助 !

标签: rapache-sparksparklyr

解决方案


推荐阅读