首页 > 解决方案 > 嵌套 gapply()、dapply 或 spark_apply() 函数?

问题描述

我有两个单独的 Hive 表,我想在其中运行一个非常复杂的字符串匹配算法。我想使用 SparkR 或 sparklyr,但我正在尝试确定嵌套dapplygapplyspark_apply语句的可行性。我还没有看到一个嵌套应用的例子。

问题陈述:邮政编码内地址的模糊匹配。本质上,我已经对 Zip=Zip 的两个数据集中的地址进行了笛卡尔连接。但是现在我有两列地址需要匹配,第三列 Zips 需要保留为“GroupBy”以限制潜在的成对比较的超集。因此,第一个“键”是 Zip,但随后我想使用第二个“键”将一系列比较发送到 column1 中的单个地址,匹配 column2 中的所有可能地址(在同一个 Zip 中)。这似乎需要or中的分布式apply函数之一,但它们中的每一个看起来都不允许,例如or 。SparkRsparklyrgapply(...,gapply())spark_apply(...,spark_apply())

有没有人试过这个或解决过类似的问题?

标签: rapache-sparkcluster-computingsparkrsparklyr

解决方案


推荐阅读