python - 如何删除重复三次或更多次的单词中的替换
问题描述
我正在使用文本数据进行预处理。有些单词的字母重复了,我必须更正它们。
例如下面的句子:
sentence = 'likeeeee sooooo looovvve hmmmmmmm'
必须改为:
sentence = 'like so love hm'
任何人都可以帮忙吗?
解决方案
您可以像这样使用正则表达式和前瞻。随时提出任何问题,我会尽力提供帮助。
import re
s = 'likeeeee sooooo looovvve hmmmmmmm'
print(re.sub(r"(.)(?=\1)","",s))
推荐阅读
- gradle - 如何在 gradle3.3 中设置自定义报告目录
- css - CSS:div 搜索元素右对齐(Bootstrap)
- python - 在 python 中恢复 wget 下载
- javascript - 如何在日期选择器 php mysql 中选择单个日期?
- azure - Azure SQL 数据库自动调整 - 无需担心索引即可开发?
- javascript - 使用 Ionic 将图片保存到本地目录
- sql - 执行 Spark 作业时,GettingTask 无法序列化异常
- ios - 在phonegap中上传zip文件时出现构建错误ios
- javascript - 将 'this' (self) 引用传递给 DOM 的 ng-mouseover 事件不起作用。除了使用核心javascript事件之外,还有其他方法吗?
- java - 如何在 addTextChangeListener() 中包含空格?