首页 > 解决方案 > 数据框值的正则表达式

问题描述

def Clean_Data(df):
   df.replace({ r'\A\s+|\s+\Z': '', '\n' : ' ', '\w\s+\w|\w\n\w': '\w\s\w'}, regex=True, inplace=True)
   return df

我想在处理之前清理我的数据框。我需要摆脱:

双空格

空格 + 换行符

-> 并将其替换为单个空格。

我还想检查两个单词(字母或数字)之间是否有多个空格并将其减少为一个空格。

并且至少检查单词和符号(或。)之间是否有空格并替换为''。

但我实际上不知道正则表达式并且已经得到了一个错误bad escape \w

标签: pythonregex

解决方案


试试这个 df.replace({' +':' ', '\n':' ','->':' '}, regex=True, inplace=True)

第一个检查多个空格并仅替换为一个空格。
第二个检查新行并用空格替换
第三个是模式 -> 并用空格替换


推荐阅读