首页 > 解决方案 > 数据清洗 - 删除尾随短语

问题描述

我正在清理一些数据并想知道如何删除尾随短语。我不想去掉所有的数字,因为有些口味有数字。第一个表是预清理的数据,第二个表是我想要的。

味道
橙子 5 毫升
樱桃
草莓 5 毫克/毫升
#1风味
百香果 1.
樱花
味道
橙子
樱桃
草莓
#1风味
百香果
樱花

标签: pythonpandasdata-analysisdata-cleaning

解决方案


像所有数据清理一样,这需要了解整个数据集,因此您可以获得的帮助很少。但是,我已经编写了一个正则表达式,您可以使用它来删除字符串末尾ml的数字、空格、单位 ( , mg)、斜杠 ( /) 和句点 ( .) :

\s*\b[/mgl\d\s.]+$

你可以像这样使用它:

df['Flavor'] = df['Flavor'].str.replace(r'\s*\b[/mgl\d\s.]+$', '', regex=True)

推荐阅读