python - PySpark 中的地址规范化和匹配

问题描述

我正在使用 PySpark 中的两个大型数据库，我必须通过属性组合来加入：其中一个是地址。我不能使用地理编码，因为数据太大而无法使用一些免费的地理编码工具，所以我要做的是基于地址上的相似性度量（以及两个数据集的其他属性之间的相等性）的连接。我的第一个问题是您的建议，因为现在我关注的是 levenshtein 距离（可以在 spark SQL 中使用），而且我不知道在更多单词的上下文中性能如何。总是关于 levenshtein，最好是删除单词之间的所有空格还是保留它们？

其次，我必须为连接准备地址，并且我想将它们标准化（Street -> st., Avenue-> ave., before casefolding...），所以我想知道你是否知道一个已经可用的在线列表我可以使用的这些转换（不仅是用英文写的地址）。

标签： pythonpysparkstring-matching

python - PySpark 中的地址规范化和匹配

问题描述

解决方案

推荐阅读