python - 删除熊猫数据框中的相似词
问题描述
我有一个数据框,我想在其中删除任何形式的“XXXX”,因为我的数据在很多方面都出现了这个词。例如我的数据框看起来像这样
['XXXX/XXXX/16','{','$','39.00','}','XXXX/XXXX/2016','.','过度','收费','会',' like', 'dispute', '.'] 'XX/XX/XXXX', 'date', 'last', 'payment', ',', 'last', 'payment', 'made', 'XX/ XX/XXXX'] ['Collector', 'calls', 'non', 'stop', '.', 'XXXX/XXXX/15' 'Med', 'XXXXXXXX', '{', '$', ' 290.00'、'}'、'XX/XX/XXXX-XX/XX/XXXX']
所需的输出应删除所有出现的“XX”,如上面给出的任何形式。
我在这里使用的代码是
stop = ['XXXX', "XX/XX"]
df['issue_detail'] = df['issue_detail'].apply(lambda x: [item for item in x if item not in stop])
上面的代码只是从熊猫数据框中删除了“XXXX:”的出现,但是你应该如何删除其余的 XXXX 出现,它们的形式与上述不同
解决方案
推荐阅读
- lapack - CentOS 5 中的 lapacke.h
- python - 如何分配要在循环外使用的变量?
- java - 使用 ACRCloud 将音频记录保存在文件中
- java - Spring:在 Maven 测试中不调用 @PostConstruct,但如果测试在 IDEA 中运行,则可以正常工作
- node.js - Kafka-Node:提交前一个后如何同步消费消息
- php - Joomla foreach 循环项目:如何仅显示 1 个项目并停止循环?
- reactjs - 如何为登录页面添加 reactjs 路由器
- .net - 使用 .NET Standard 2.0 生成自签名 X509Certificate2
- yii - Yii 更改 fullcalendar-scheduler 的功能
- c - 如何在 c 中实现自己的 printf