apache-spark - Spark Left directjoin(on/off) 产生不同的结果
问题描述
根据我们的 spark cassandra 集群上的 directJoin 使用,我们有不同的结果集大小:
//newpos 是从 cassandra 加载的数据帧
val with_direct_join = new_pos.join(
right
.directJoin(AlwaysOn)
,
Seq("a", "b", "c"),
"left"
println("(Direct-Join): %d".format(with_direct_join.count)); //12006行
相同的数据框并使用 directJoin(AlwayOff) 连接具有 //14705 行的结果集
任何想法为什么会发生这种情况?Directjoin 与左连接的结合似乎以某种方式限制了行。
谢谢,弗洛
解决方案
推荐阅读
- reporting - Report Builder 3 中的每股成本是如何计算的?
- javascript - 用 div / class 隐藏 li 项目
- amazon-web-services - AWS GovCloud 中 Cognito 的替代方案
- azure - 企业必应地图 - URL 引荐来源网址
- css - 如何在 Safari 和 Chrome 中类似地呈现按钮?
- xquery - 布尔值在 xquery 中不可赋值
- python - 如何在不创建新会话的情况下配置“requests.get(url)”调用并重试?
- node.js - 为单个对象创建/添加生命周期配置
- c++ - 这是创建控制台应用程序的正确方法吗?
- php - Laravel:更新用户最旧的令牌