首页 > 解决方案 > 修复大型数据框中的数据

问题描述

我有两个要加入的数据框IDdf1包含格式整齐的名称:

          ID Company Symbol
0  68243Q106  AA Inc     AA
1  336901103  BB Inc     BB
2  100564000  CC Inc     CC

并且df2是通过从网站上抓取数据并加入ID.

但有时IDs 是 1) 在网站上输入错误(例如,缺少一个数字),或 2)ID中尚不存在的新 s df1

  Investor      Date         ID Company Symbol
0     Pete   9/30/13   68243Q10  aa inc    NaN
1     Mike  12/31/16  68243Q106  AA Inc     AA
2     Pete   3/31/19  68243Q106  AA Inc     AA
3     Pete   6/30/15   36901103  bb inc    NaN
4     Pete   3/31/17  336901103  BB Inc     BB
5     Mike   6/30/17  336901103  BB Inc     BB
6     Pete   6/30/17  100564000  CC Inc     CC
7     Mike   6/30/16  1O056400O     NaN    NaN
8     Pete   6/30/17    1111111     New    NaN

我很好奇人们会如何处理这个问题。我查看了模糊匹配,虽然它工作得很好,但在它是一个真正的新 ID 的情况下,它也会返回太多误报。因此,虽然这种方法“修复”了这个问题,但同时也产生了一个同样具有挑战性的新问题。

标签: pythonpandasjoinfuzzy-search

解决方案


推荐阅读