r - 嵌套 gapply()、dapply 或 spark_apply() 函数?
问题描述
我有两个单独的 Hive 表,我想在其中运行一个非常复杂的字符串匹配算法。我想使用 SparkR 或 sparklyr,但我正在尝试确定嵌套dapply
、gapply
或spark_apply
语句的可行性。我还没有看到一个嵌套应用的例子。
问题陈述:邮政编码内地址的模糊匹配。本质上,我已经对 Zip=Zip 的两个数据集中的地址进行了笛卡尔连接。但是现在我有两列地址需要匹配,第三列 Zips 需要保留为“GroupBy”以限制潜在的成对比较的超集。因此,第一个“键”是 Zip,但随后我想使用第二个“键”将一系列比较发送到 column1 中的单个地址,匹配 column2 中的所有可能地址(在同一个 Zip 中)。这似乎需要or中的分布式apply
函数之一,但它们中的每一个看起来都不允许,例如or 。SparkR
sparklyr
gapply(...,gapply())
spark_apply(...,spark_apply())
有没有人试过这个或解决过类似的问题?
解决方案
推荐阅读
- reactjs - 导航后保持点击状态
- javascript - 将用户信息从 azureAD 传递到 app.js 的代码
- c - C程序在函数调用后停止
- php - 我需要一台 Linux 机器来使用 PHP 进行后端 Web 开发吗?
- powershell - 如何检查 Web 请求的 StatusCode 及其所有相关子请求
- excel - 辅助轴 0 与垂直轴一致
- java - 如何在运行线程中运行 Asynctask 以显示“数据正在读取”对话框
- python - Python 3.9 是否更新了如何键入提示函数类型?
- node.js - 创建文件后执行进程不起作用NodeJS
- reactjs - React-hook-form 更新验证