首页 > 解决方案 > 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母?

问题描述

我在数据框中有阿拉伯文本,我想و从所有以该字母开头的单词中删除该字母。我试图这样做:

def clean(text_string):
    space_pattern = '\bو'
    
    parsed_text = re.sub(space_pattern, '', text_string)
    return parsed_text

接着:

df['tidy_tweet'] = np.vectorize(clean)(df['tidy_tweet'])

但是当我运行它时,没有任何变化。就好像我什么都没做一样!

例子:

输入:هيه الهزه الحقيقيه وتخافون الهزه وماتخافون الهزه اعملها نظامكم الهمجي

期望的输出:هيه الهزه الحقيقيه تخافون الهزه ماتخافون الهزه اعملها نظامكم الهمجي

标签: pythonregexre

解决方案


您需要为正则表达式使用 r 字符串:

space_pattern = r'\bو'

如果没有 r,\b 将被解释为 ASCII BACKSPACE 字符,它不会出现在您的文本中。


推荐阅读