r - sparklyr antijoin 中的近似双重比较
问题描述
我正在尝试对现有sparklyr
代码进行微小的更改;这些更改旨在提供相同的结果,只是代码应该更具可读性和效率。因此,我想确保获得相同的结果,这些结果已存储在hive
表格中。为此,我使用以下方法将新结果与旧结果进行比较anti_join
:
diff.sdf <- clean_results.sdf %>%
anti_join(new_results.sdf, by = unlist(colnames(clean_results.sdf)))
我没有得到 100% 的匹配,在查看了细节之后,我怀疑anti-join
在双打方面没有发挥应有的作用。似乎它可能会考虑实际上不是的不同值。
可重现的示例(但可能是从 spark 到 R 再返回到 spark 会改变情况):
structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA,
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot",
"date_analyse"))
structure(list(mnt_tot = 37008.16, date_analyse = "2019-01-31"), row.names = c(NA,
-1L), class = c("tbl_df", "tbl", "data.frame"), .Names = c("mnt_tot",
"date_analyse"))
解决方案
推荐阅读
- kubernetes - Kubernetes 如何调度和部署 Pod?
- google-chrome - 提取 - 仅来自地址的数字
- c# - 如何在 Azure FunctionApp 中使用 Microsoft.Extensions.Logging.ILogger 作为类变量?
- node.js - AMQPLIB - NodeJS - 在 RabbitMQ 中断言一个惰性队列
- python - Jupyter Notebook 的终端命令未使用正确的 conda 环境
- javascript - 用户登录网站后如何显示空白页面?
- python - python 是否可以从现有数据框创建新数据框?
- java - 如何使用 azure Java Storage SDK V10 获取 blob Uri
- plugins - 如何自动删除结束标签
- serverless-framework - Void 处理程序的本地无服务器调用 - InvokeBridge 异常