python - 如何使用正则表达式从数据框中的阿拉伯文本中删除某个字母?
问题描述
我在数据框中有阿拉伯文本,我想و
从所有以该字母开头的单词中删除该字母。我试图这样做:
def clean(text_string):
space_pattern = '\bو'
parsed_text = re.sub(space_pattern, '', text_string)
return parsed_text
接着:
df['tidy_tweet'] = np.vectorize(clean)(df['tidy_tweet'])
但是当我运行它时,没有任何变化。就好像我什么都没做一样!
例子:
输入:هيه الهزه الحقيقيه وتخافون الهزه وماتخافون الهزه اعملها نظامكم الهمجي
期望的输出:هيه الهزه الحقيقيه تخافون الهزه ماتخافون الهزه اعملها نظامكم الهمجي
解决方案
您需要为正则表达式使用 r 字符串:
space_pattern = r'\bو'
如果没有 r,\b 将被解释为 ASCII BACKSPACE 字符,它不会出现在您的文本中。
推荐阅读
- context-free-grammar - 这个解析树是如何生成的?
- r - 如何在R中创建一列变量,指示特定日期之前和之后
- numpy - numpy - 元组在 numpy 中不是“(...)”吗?
- c# - 从自定义 Visual Studio 桌面应用程序保存/导出数据
- ios - Appcelerator Titanium iOS 后台服务停止 30 秒
- finance - Pinescript:如何获得最高,最低,sma,不包括特定时间范围?
- swift - 正交投影中的相机位置
- java - 删除请求映射向我抛出此错误 405 Http method Get is not supported by this URL
- apache-spark - Spark结构化流作业中的java.io.FileNotFoundException
- reactjs - 反应给我错误:重新渲染太多。React 限制渲染次数以防止无限循环