python - 从数据框中删除相似的字符串重复项
问题描述
我有 df 目前看起来像这样:
Car Name Number
Adam Leaf 9
Adamm Leaf 9
Adam Lea NaN
Adam-Leaf NaN
Adam/Leaf 9
Claire-Green NaN
Cliare Green 3
Claire Green 3
Claire Gren NaN
Claire/Green 3
我正在尝试删除变化以实现这样的目标
Car Name Number
Adam Leaf 9
Claire Green 3
解决方案
这是一种方法jellyfish
import jellyfish
s=df.groupby(df['Car Name'].apply(jellyfish.soundex)).first()
Car Name Number
Car Name
A354 Adam Leaf 9.0
C462 Claire-Green 3.0
推荐阅读
- bash - 如何在 while 循环中创建 if 语句以仅在某些行上执行某些操作?
- git - 错误:克隆项目表单 bitbucket 时“连接已关闭...”
- python - 在 Pandas Dataframe 中查找多列(不是所有列)中具有相同值的行
- javascript - 计算 RGB 值的人眼对比度差异的有效方法是什么?
- html - 在终端控制台中解释 MarkDown 标记
- python - 在 python 中 Ping 比预期慢
- node.js - 从单个 REDIS 实例读取 Nodejs 集群架构
- excel - Excel - 仅自动编号非空白行
- binary-search-tree - 了解输入句子时为每个字母制作计数器的步骤
- tpm - 使用“无效指针”进行 TPM 远程编程