regex - 正则表达式不会在预处理中从文本数据中删除网站
问题描述
我正在做文本预处理,在我的文本中有网站。我想删除这些,但我做不到。
以下是示例文本:
\n\n万维网 (www)\n\n互联网上通过超链接链接的全部文件的名称;经常用作后者的同义词26。\n\n\n\n\n\n\n\n24\xe2\x80\x83\t www.sicherheitskultur.at , Information Security Glossary\n\n25\xe2\x80 \x83\t 文本来源(部分):KS\xc3\x96: Cyber Risk Matrix - Glossary\n\n26\xe2\x80\x83\t www.sicherheitskultur.at,信息安全词汇表\n\n\n\n \n\n23\n'
网站是可见的(粗体),我想删除这些。
我尝试了一个代码(来自 StackOverflow 答案- Python code to remove HTML tags from a string),但它没有删除这些网站。
以下是代码:
def remove_web(text):
cleanr = re.compile('<.*?.*#>')
text = re.sub(cleanr, '', text)
return text
提前致谢!
解决方案
所以如果你只想删除这个特别的 URL,你可以使用这个正则表达式:
www\.[a-z]+\.at
(使用大卫阿马尔的解决方案。)
推荐阅读
- node.js - 我的 async/await 函数没有在 AWS Lambda 中等待。我错过了什么?
- wordpress - 将跟踪脚本添加到 Woocommerce
- java - “线程“主”java.util.NoSuchElementException 中的 jException:未找到行”
- r - R中的“函数错误(类型,msg,asError = TRUE)”
- python - Python 端口扫描器挑战
- angular - 我可以扩展 Angular @Injectable 装饰器吗?
- html - html 表格单元格中的新行 (\n)
- shell - 在 BigQuery 脚本中传递参数
- android - 如何在 MainActivity 中写入颜色 id?(科特林)
- docker - 使用 centos-quarkus-maven:19.2.1 生成原生镜像 quarkus rest-client-quickstart 失败