python - 修复大型数据框中的数据
问题描述
我有两个要加入的数据框ID
。df1
包含格式整齐的名称:
ID Company Symbol
0 68243Q106 AA Inc AA
1 336901103 BB Inc BB
2 100564000 CC Inc CC
并且df2
是通过从网站上抓取数据并加入ID
.
但有时ID
s 是 1) 在网站上输入错误(例如,缺少一个数字),或 2)ID
中尚不存在的新 s df1
。
Investor Date ID Company Symbol
0 Pete 9/30/13 68243Q10 aa inc NaN
1 Mike 12/31/16 68243Q106 AA Inc AA
2 Pete 3/31/19 68243Q106 AA Inc AA
3 Pete 6/30/15 36901103 bb inc NaN
4 Pete 3/31/17 336901103 BB Inc BB
5 Mike 6/30/17 336901103 BB Inc BB
6 Pete 6/30/17 100564000 CC Inc CC
7 Mike 6/30/16 1O056400O NaN NaN
8 Pete 6/30/17 1111111 New NaN
- 行
0
,ID
缺少尾随6
(68243Q10
vs68243Q106
) - 行
3
,ID
缺少前导3
(36901103
vs336901103
) - row
7
,ID
包含一些“O”而不是零(1O056400O
vs100564000
) - 第 8 行,ID 是新的
我很好奇人们会如何处理这个问题。我查看了模糊匹配,虽然它工作得很好,但在它是一个真正的新 ID 的情况下,它也会返回太多误报。因此,虽然这种方法“修复”了这个问题,但同时也产生了一个同样具有挑战性的新问题。
解决方案
推荐阅读
- html - Bootstrap 输入背景不覆盖整个输入
- r - lm 的系数太多
- tensorflow - 为 LSTM RNN 预测时间序列动态找到正确的时间步长
- ruby-on-rails - 在 Rails API 响应中获取未找到记录的部分原始 SQL
- r - 如何在 R 中制作数组矩阵?
- java - 如何通过字节码分析收集常量表达式的用法?
- html - 表格无法居中和最大宽度
- javascript - TypeError:无法读取未定义 Express 的属性“使用”
- botframework - Microsoft Teams Bot 未将消息编辑/删除事件发送到 bot 消息传递端点
- webpack - 在 webpack 中只排除 1 个块?