首页 > 解决方案 > 有没有办法将数据帧的一列中的所有行与另一个数据帧的另一列(火花)中的所有行进行比较?

问题描述

我在 Spark 中有两个数据框,都有一个 IP 列。一列有超过 800000 个条目,而另一列有 4000 个条目。我想要做的是查看较小数据帧中的 IP 是否出现在大数据帧的 IP 列中。

目前我所能做的就是比较列的第一行、列的第二行等。

提前致谢!

标签: sqlscalaapache-sparkpysparkapache-zeppelin

解决方案


这样的事情怎么样,直接从使用 EXISTS 或 NOT EXISTS 的手册中创建临时视图,请参见此处https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/2728434780191932/1483312212640900/6937436228780。 html :

%sql
SELECT  *
FROM    t1 A
WHERE   NOT EXISTS (SELECT  1
                      FROM  t2 B
                     WHERE  B.colx = A.colx)

推荐阅读