r - 嵌套 gapply()、dapply 或 spark

问题描述

我有两个单独的 Hive 表，我想在其中运行一个非常复杂的字符串匹配算法。我想使用 SparkR 或 sparklyr，但我正在尝试确定嵌套dapply、gapply或spark_apply语句的可行性。我还没有看到一个嵌套应用的例子。

问题陈述：邮政编码内地址的模糊匹配。本质上，我已经对 Zip=Zip 的两个数据集中的地址进行了笛卡尔连接。但是现在我有两列地址需要匹配，第三列 Zips 需要保留为“GroupBy”以限制潜在的成对比较的超集。因此，第一个“键”是 Zip，但随后我想使用第二个“键”将一系列比较发送到 column1 中的单个地址，匹配 column2 中的所有可能地址（在同一个 Zip 中）。这似乎需要or中的分布式apply函数之一，但它们中的每一个看起来都不允许，例如or 。SparkRsparklyrgapply(...,gapply())spark_apply(...,spark_apply())

有没有人试过这个或解决过类似的问题？

标签： rapache-sparkcluster-computingsparkrsparklyr

r - 嵌套 gapply()、dapply 或 spark_apply() 函数？

问题描述

解决方案

推荐阅读