python - PySpark 中的地址规范化和匹配
问题描述
我正在使用 PySpark 中的两个大型数据库,我必须通过属性组合来加入:其中一个是地址。我不能使用地理编码,因为数据太大而无法使用一些免费的地理编码工具,所以我要做的是基于地址上的相似性度量(以及两个数据集的其他属性之间的相等性)的连接。我的第一个问题是您的建议,因为现在我关注的是 levenshtein 距离(可以在 spark SQL 中使用),而且我不知道在更多单词的上下文中性能如何。总是关于 levenshtein,最好是删除单词之间的所有空格还是保留它们?
其次,我必须为连接准备地址,并且我想将它们标准化(Street -> st., Avenue-> ave., before casefolding...),所以我想知道你是否知道一个已经可用的在线列表我可以使用的这些转换(不仅是用英文写的地址)。
解决方案
推荐阅读
- c# - 请求在 IIS 上停留在 BeginRequest 状态
- java - Grizzly 2.4 Embedded Https Server 在 NEED_WRAP 上无限循环
- javascript - 如何在 GEE 中使用 shapefile 资产作为 AOI?
- c# - 无法修复 SonarCloud 上的 SQL 注入
- reactjs - 删除行时更新单元格背景颜色。(反应表)
- c# - 无法使用 C# 的 selenium Web 驱动程序根据标签名称选择元素
- javascript - 如何以天、小时和分钟显示下一个生日倒计时?
- haskell - Haskell 中真正的非确定性
- python-3.x - 将相似键的字典转换为字典列表(更新)
- java - 如何在 Java 中为 Koin 获取 Android 上下文