python - 数据清洗 - 删除尾随短语
问题描述
我正在清理一些数据并想知道如何删除尾随短语。我不想去掉所有的数字,因为有些口味有数字。第一个表是预清理的数据,第二个表是我想要的。
味道 |
---|
橙子 5 毫升 |
樱桃 |
草莓 5 毫克/毫升 |
#1风味 |
百香果 1. |
樱花 |
味道 |
---|
橙子 |
樱桃 |
草莓 |
#1风味 |
百香果 |
樱花 |
解决方案
像所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我已经编写了一个正则表达式,您可以使用它来删除字符串末尾ml
的数字、空格、单位 ( , mg
)、斜杠 ( /
) 和句点 ( .
) :
\s*\b[/mgl\d\s.]+$
你可以像这样使用它:
df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)
推荐阅读
- python - 使用 Bokeh 和 Pandas 将标签放置在嵌套的分类堆叠条中
- python-3.x - python3.6.8 中的 is_alive() 不等待线程结束
- recursion - 装配中的双重递归一直有效,直到二次递归变得大于基本情况
- vba - 将数组从模块传递到 VBA 中的用户窗体列表框
- ruby-on-rails - 使用 Brakeman 扫描时如何修复原始 SQL 中的“可能的 SQL 注入”
- php - 如何在 wordpress 中搜索和打印数据库?
- java - 如何在不使用按钮或提交的情况下使用数据库值自动填充 jsp 文本框?
- c++ - 为什么我的变量尚未设置为任何值时返回一个值?
- python - 如何在数据框的每一列上计算修改后的 Z 分数和 IQR
- node.js - 像亚马逊一样关闭浏览器后我应该学什么存储购物卡?