首页 > 解决方案 > 删除熊猫数据框中的相似词

问题描述

我有一个数据框,我想在其中删除任何形式的“XXXX”,因为我的数据在很多方面都出现了这个词。例如我的数据框看起来像这样

['XXXX/XXXX/16','{','$','39.00','}','XXXX/XXXX/2016','.','过度','收费','会',' like', 'dispute', '.'] 'XX/XX/XXXX', 'date', 'last', 'payment', ',', 'last', 'payment', 'made', 'XX/ XX/XXXX'] ['Collector', 'calls', 'non', 'stop', '.', 'XXXX/XXXX/15' 'Med', 'XXXXXXXX', '{', '$', ' 290.00'、'}'、'XX/XX/XXXX-XX/XX/XXXX']

所需的输出应删除所有出现的“XX”,如上面给出的任何形式。

我在这里使用的代码是

stop =  ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])

上面的代码只是从熊猫数据框中删除了“XXXX:”的出现,但是你应该如何删除其余的 XXXX 出现,它们的形式与上述不同

标签: pythonpandasdataframe

解决方案


看来您正在寻找正则表达式。如果我正确理解您的问题,那么这个问题与您的问题非常相关。

  1. 创建正则表达式
  2. 应用于df.column_name.str.match数据框。这将为每一行创建一个包含True和的数据框。False
  3. 根据上一步中完成的匹配过滤数据帧。

查看特定答案以查看相关代码。


推荐阅读