首页 > 解决方案 > Spark Left directjoin(on/off) 产生不同的结果

问题描述

根据我们的 spark cassandra 集群上的 directJoin 使用,我们有不同的结果集大小:

//newpos 是从 cassandra 加载的数据帧

val with_direct_join = new_pos.join(
    right
        .directJoin(AlwaysOn)
    ,
    Seq("a", "b", "c"),
    "left"

println("(Direct-Join): %d".format(with_direct_join.count)); //12006行

相同的数据框并使用 directJoin(AlwayOff) 连接具有 //14705 行的结果集

任何想法为什么会发生这种情况?Directjoin 与左连接的结合似乎以某种方式限制了行。

谢谢,弗洛

标签: apache-sparkcassandraspark-cassandra-connector

解决方案


推荐阅读