sql - 有没有办法将数据帧的一列中的所有行与另一个数据帧的另一列(火花)中的所有行进行比较?
问题描述
我在 Spark 中有两个数据框,都有一个 IP 列。一列有超过 800000 个条目,而另一列有 4000 个条目。我想要做的是查看较小数据帧中的 IP 是否出现在大数据帧的 IP 列中。
目前我所能做的就是比较列的第一行、列的第二行等。
提前致谢!
解决方案
这样的事情怎么样,直接从使用 EXISTS 或 NOT EXISTS 的手册中创建临时视图,请参见此处https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/2728434780191932/1483312212640900/6937436228780。 html :
%sql
SELECT *
FROM t1 A
WHERE NOT EXISTS (SELECT 1
FROM t2 B
WHERE B.colx = A.colx)
推荐阅读
- javascript - CSS 和 Javascript 下拉导航未显示
- angular - Angular中两个以上领域的两种方式绑定
- c# - 对数据库进行过滤。收到的错误必须声明标量变量
- spring-boot - JUnit 在带有 @Autowired 注释的 Spring Boot 中不起作用
- java - 爪哇。用户的输入通过实例变量在主类中工作,但在其他类中没有
- forms - 是否可以使用 Wix 上的自定义表单将图像发送到电子邮件地址,同时也使用 sendGrid?
- python - 在 Python 中绘制一维和二维动态系统的轨迹
- c# - C#在传递参数时没有调用多态中的驱动类函数
- angular - 如何将html中的元素值列表绑定到Angular5中的对象数组
- ios - React Native 线性渐变包在 IOS 上不起作用