首页 > 解决方案 > 正则表达式不会在预处理中从文本数据中删除网站

问题描述

我正在做文本预处理,在我的文本中有网站。我想删除这些,但我做不到。

以下是示例文本:

\n\n万维网 (www)\n\n互联网上通过超链接链接的全部文件的名称;经常用作后者的同义词26。\n\n\n\n\n\n\n\n24\xe2\x80\x83\t www.sicherheitskultur.at , Information Security Glossary\n\n25\xe2\x80 \x83\t 文本来源(部分):KS\xc3\x96: Cyber​​ Risk Matrix - Glossary\n\n26\xe2\x80\x83\t www.sicherheitskultur.at,信息安全词汇表\n\n\n\n \n\n23\n'

网站是可见的(粗体),我想删除这些。

我尝试了一个代码(来自 StackOverflow 答案- Python code to remove HTML tags from a string),但它没有删除这些网站。

以下是代码:

def remove_web(text):
    cleanr = re.compile('<.*?.*#>')
    text = re.sub(cleanr, '', text)
    return text

提前致谢!

标签: regextextpython-3.7

解决方案


所以如果你只想删除这个特别的 URL,你可以使用这个正则表达式:

www\.[a-z]+\.at

(使用大卫阿马尔的解决方案。)


推荐阅读