pyspark - Inner Join On (Hive) 给出与 PySpark Inner Join 不同的结果
问题描述
我今天观察到了这种现象。当我在 Hive CLI 中执行以下命令时,我获得的结果与使用 pyspark 执行此操作不同:
蜂巢:
Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX=t2.fieldX AND t1.fieldY=t2.fieldY);
结果 : 17 488
火花SQL:
hc.sql("Select count(distinct t1.fieldX) from table1 t1 JOIN table2 t2 ON (t1.fieldX==t2.fieldX AND t1.fieldY==t2.fieldY)")
结果:5555
我使用此代码获得了相同的结果:
tabl1.alias("t1").join(
other=table2.alias("t2"),
on=[t1.fieldX==t2.fieldX, t1.fieldY==t2.fieldY]
how='inner'
).select("fieldX").distinct().count()
结果:5555
我不明白为什么我会得到不同的结果!
解决方案
推荐阅读
- sockets - 使用 CRLF json 协议连接 ssl 套接字时出错
- python - 类内的多处理
- vue.js - 如何在 NuxtJS 中构建对 SEO 友好的路由?
- css - Sass 字体语法未加载字体系列
- php - 如何在 WooCommerce 菜单中包含包含子类别的产品数量?
- android - 将默认导航抽屉添加到 NewActivity
- javascript - 如何使用复选框将字符串附加到数组中?
- python - 正则表达式匹配超过 2 个源文件、预期字符串或缓冲区时出错
- android - 如何通过 Android 上的 SMS 从其 URL 启动第三方应用程序?
- html - 以 HTML 电子邮件格式显示的水平线 - Outlook Office 365