首页 > 解决方案 > 如何比较两个文件以查看一个列中的记录是否存在于来自单独文件的另一列中,然后仅在找到的地方进行模糊匹配?

问题描述

主要目标:检查文件 1 的列 1 以查看文件 2 的列 2 中是否存在邮政编码。如果匹配,则继续执行街道地址字段的模糊匹配。File1 有 900 条记录,而 file2 有 31,000,000 条记录,所以我们也遇到了优化问题。

我做了什么:我有两个文件。我在使用熊猫时都读过它们。我已经设置了模糊匹配过程。我现在正试图返回并添加一种首先检查“邮政编码”列的方法,因为该过程花费的时间太长而且结果并不完全准确(例如,街道地址可能会显示“邮政信箱 678”但是在多个城市,因此这会产生误报,并且首先匹配邮政编码,这可能不会经常发生)。

matched_street = []

for row1 in PACTconverted1.index:
P_Street = PACTconverted1._get_value(row1,"P_Street")
for row2 in acctinfo.index:
    Street= acctinfo._get_value(row2,"Street")
    matched_token=fuzz.token_sort_ratio(P_Street,Street)
    if matched_token> 80:
        matched_street.append([P_Street,Street,matched_token])

终极问题:在进行模糊匹配之前,检查邮政编码的代码应该是什么样的?

标签: python

解决方案


推荐阅读