首页 > 解决方案 > 匹配 hive 数据库中两个字段的最有效方法

问题描述

我想基本上匹配两个数据库的电子邮件字段,其中一个表将电子邮件作为电子邮件数组,而另一个表有一个字符串字段,每个表都有数十亿条记录。所以效率非常重要。

我试过制作一个python脚本,但我认为使用我制作的时间复杂度为O(n^2)的脚本需要很长时间才能完成。任何更好的 python 脚本都非常受欢迎。

如果有人可以提出一种非常有帮助的方法。

标签: pythonhadoophivedatasetbigdata

解决方案


我会首先尝试将该逻辑推到蜂巢并尝试在这两个字段上进行内部连接。您显然需要将它们转换为相同的字符串结构,但这可以在 INNER JOIN 语句本身中完成。由于 Hive 应该在集群中分配计算,因此它将尽可能高效....
如果您发布表结构,我可以使用应该工作的实际 Hive 语句进行更新。


推荐阅读