python - 匹配 hive 数据库中两个字段的最有效方法
问题描述
我想基本上匹配两个数据库的电子邮件字段,其中一个表将电子邮件作为电子邮件数组,而另一个表有一个字符串字段,每个表都有数十亿条记录。所以效率非常重要。
我试过制作一个python脚本,但我认为使用我制作的时间复杂度为O(n^2)的脚本需要很长时间才能完成。任何更好的 python 脚本都非常受欢迎。
如果有人可以提出一种非常有帮助的方法。
解决方案
我会首先尝试将该逻辑推到蜂巢并尝试在这两个字段上进行内部连接。您显然需要将它们转换为相同的字符串结构,但这可以在 INNER JOIN 语句本身中完成。由于 Hive 应该在集群中分配计算,因此它将尽可能高效....
如果您发布表结构,我可以使用应该工作的实际 Hive 语句进行更新。
推荐阅读
- r - 最长的 Collatz 序列 1:n
- sql-server - 在 Excel Microsoft Data Query 中嵌入用户名和密码,以便其他用户可以刷新数据
- java - 找不到答案,Jersey 404 错误,当转到网页 rest/*,git 代码 https://gitlab.com/Kaidstor/job-access
- python - OpenCV 只接受我在 PyCharm 中的路径字符串
- c# - 使用 CryptoStream 将位图转换为 base 64 字符串格式
- reactjs - 无法将参数传递给功能组件之间的路由
- bar-chart - 按维度计数的前 N 个 Tableau
- android - 在 AndroidManifest 中使用 requestLegacyExternalStorage = true 在 Android API 29 和 30 上删除文件时获取 RecoverableSecurityException
- angular - 如何在没有互联网连接的情况下使用传单地图(离线模式),最好在 Angular 中使用
- r - stat_compare_means 比较不在 x 轴上的组