首页 > 解决方案 > Python 中 (\xa0) 和 () 的正则表达式).*()

问题描述

只是阅读了一些用于预处理文本数据的代码,然后遇到了这些正则表达式,并且正在努力弄清楚它们的含义。

ReviewText = ReviewText.str.replace('(<a).*(>).*(</a>)', '')   
ReviewText = ReviewText.str.replace('(\xa0)', ' ')

标签: pythonregex

解决方案


好吧,看起来他们正在使用 regexp 玩 HTML。. . 通常,人们对此不屑一顾,但鉴于您正在使用,而不是开发,我们现在将忽略该问题。

看起来第一行需要:

<a href="https://www.w3schools.com">Visit W3Schools.com!</a>

并将其压制为空。

第二个采用显示的字符串并将其更改为空格。

正如上面所说的,你需要正则表达式和输入来实际做任何事情。一旦你有了 regexp 和一些输入,我建议你使用 regexp checker 来处理输入。. . 像这里(或相等):https ://pythex.org/


推荐阅读